Compartilhar via


Limites e regiões do Serviço de Modelo

Este artigo resume as limitações e a disponibilidade da região para o Serviço de Modelo do Mosaic AI e os tipos de ponto de extremidade compatíveis.

Limitações

O Serviço de Modelo do Mosaic AI impõe limites padrão para garantir um desempenho confiável. Se você tiver comentários sobre esses limites, entre em contato com sua equipe de conta do Databricks.

A tabela a seguir resume as limitações de conteúdo e recursos para pontos de extremidade de serviço de modelo.

Recurso Granularidade Limite
Tamanho da carga Por solicitação 16 MB. Para endpoints que atendem a modelos de base ou modelos externos, o limite é de 4 MB.
Consultas por segundo (QPS) Por workspace 200 QPS. Pode ser aumentado para 3.000 ou mais, bastando você entrar em contato com a equipe da sua conta do Databricks.
Duração da execução do modelo Por solicitação 120 segundos
Uso de memória do modelo de ponto de extremidade da CPU Por ponto de extremidade 4 GB
Uso de memória do modelo de ponto de extremidade da GPU Por ponto de extremidade Maior ou igual à memória de GPU atribuída, depende do tamanho da carga de trabalho da GPU
Simultaneidade provisionada Por workspace Simultaneidade de 200. Pode ser aumentado pela conta do Databricks.
Latência de sobrecarga Por solicitação Menos de 50 milissegundos
Limites de taxa de APIs de Modelo do Foundation (pagamento por token) Por workspace Se os limites a seguir forem insuficientes para seu caso de uso, o Databricks recomenda usar o desempenho provisionado.

- Llama 3.1 70B Instruct tem um limite de 2 consultas por segundo e 1200 consultas por hora.
- Llama 3.1 405B Instruct tem um limite de 1 consulta por segundo e 1200 consultas por hora.
- O modelo DBRX Instruct tem um limite de uma consulta por segundo.
- Llama 2 70B Chat e Mixtral-8x 7B Instruct têm um limite de taxa padrão de 2 consultas por segundo.
- GTE Large (En) tem um limite de taxa de 150 consultas por segundo
- BGE Large (En) tem um limite de taxa de 600 consultas por segundo.
Limites de taxa de APIs de Modelo do Foundation (taxa de transferência provisionada) Por workspace O mesmo que o limite de QPS de Serviço de Modelo listado acima.

Os pontos de extremidade do Serviço de Modelo são protegidos por controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no espaço de trabalho, como listas de IPs permitidos e Link Privado do Azure.

Também existem limitações adicionais:

  • É possível que um workspace seja implantado em uma região com suporte, mas seja atendido por um plano de controle em uma região diferente. Esses workspaces não dão suporte ao Serviço de Modelo e retornam uma mensagem de erro informando que seu workspace não tem suporte. Entre em contato com a equipe da sua conta do Azure Databricks para obter mais informações.
  • O Serviço de Modelo não dá suporte a scripts de inicialização.
  • Por padrão, o Model Serving não dá suporte ao Link Privado para pontos de extremidade externos (como o Azure OpenAI). O suporte para essa funcionalidade é avaliado e implementado por região. Entre em contato com a equipe da sua conta do Azure Databricks para obter mais informações.

Limites das APIs do Foundation Model

Observação

Como parte do fornecimento das APIs do Modelo do Foundation, o Databricks pode processar seus dados fora da região em que os dados se originaram, mas não fora da localização geográfica relevante.

Veja a seguir os limites relevantes para as cargas de trabalho de APIs do Modelo do Foundation:

  • A taxa de transferência provisionada dá suporte ao perfil de conformidade HIPAA e deve ser usada para cargas de trabalho que exigem certificações de conformidade.
  • Cargas de trabalho de pagamento por token não são compatíveis com HIPAA ou perfil de segurança de conformidade.
  • Para pontos de extremidade de APIs do Modelo do Foundation, somente os administradores do workspace podem alterar as configurações de governança, como os limites de taxa. Para alterar os limites de taxa, use as seguintes etapas:
    1. Abra a interface do usuário de serviço em seu workspace para ver seus pontos de extremidade de serviço.
    2. No menu kebab no ponto de extremidade de APIs do Modelo do Foundation que você deseja editar, selecione Exibir detalhes.
    3. No menu kebab no lado superior direito da página de detalhes dos pontos de extremidade, selecione Alterar o limite de taxa.
  • Para usar a arquitetura de modelo DBRX para uma carga de trabalho com taxa de transferência provisionada, o ponto de extremidade de serviço deve estar em uma das seguintes regiões:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • Somente os modelos GTE Large (En) e Meta Llama 3.1 70B Instruct estão disponíveis nas regiões com pagamento por token com suporte pela UE e pelos EUA.
  • Os seguintes modelos de pagamento por token são compatíveis apenas com as APIs do Modelo de Base com suporte para pagamento por token nas regiões dos EUA:
    • Meta Llama 3.1 405B Instruct
    • DBRX Instruct
    • Mixtral-8x7B Instruct
    • BGE Grande (En)
    • Llama 2 70B Chat

Disponibilidade de região

Observação

Se você precisar de um ponto de extremidade em uma região sem suporte, entre em contato com a equipe da sua conta do Azure Databricks.

Para obter mais informações sobre a disponibilidade regional de recursos, confira Disponibilidade regional de distribuição de modelos.