Modelo Limites de serviço e regiões

Artigo
12/27/2024

Este artigo resume as limitações e a disponibilidade da região para o Mosaic AI Model Serving e os tipos de endpoint suportados.

Limites de recursos e carga útil

O Mosaic AI Model Serving impõe limites padrão para garantir um desempenho confiável. Se você tiver comentários sobre esses limites, entre em contato com sua equipe de conta Databricks.

O table a seguir resume as limitações de recursos e carga útil para os pontos de extremidade de serviço de modelos.

Caraterística	Granularidade	Limit
Tamanho da carga útil	Por pedido	16 MB. Para endpoints que servem modelos fundamentais, ou modelos externos, o limit é de 4 MB.
Consultas por segundo (QPS)	Por espaço de trabalho	200, mas pode ser aumentado para 25.000 ou mais entrando em contato com sua equipe de conta Databricks.
Duração da execução do modelo	Por pedido	120 segundos
Uso da memória do modelo de ponto de extremidade da CPU	Por parâmetro de avaliação	4GB
Uso da memória do modelo de ponto de extremidade GPU	Por parâmetro de avaliação	Maior ou igual à memória GPU atribuída, depende do tamanho da carga de trabalho da GPU
Simultaneidade provisionada	Por modelo e por espaço de trabalho	200 simultaneidade. Pode ser aumentado entrando em contato com sua equipe de conta Databricks.
Latência de sobrecarga	Por pedido	Menos de 50 milissegundos
Scripts init		Não há suporte para scripts de inicialização.
Limites de taxa das APIs do Modelo de Base (pagamento por token)	Por espaço de trabalho	Se os limites a seguir forem insuficientes para seu caso de uso, o Databricks recomenda o uso da taxa de transferência provisionada. - O Llama 3.3 70B Instruct tem uma limit de 2 interrogações por segundo e 1200 interrogações por hora. - Llama 3.1 405B Instruct tem uma limit de 1 consulta por segundo e 1 200 consultas por hora. - O modelo DBRX Instruct tem uma limit de 1 consulta por segundo. - O Mixtral-8x 7B Instruct tem uma taxa padrão limit de 2 consultas por segundo. - GTE Large (En) tem uma taxa limit de 150 consultas por segundo - BGE Large (En) tem uma taxa limit de 600 consultas por segundo.
Limites de taxa de APIs do modelo básico (taxa de transferência provisionada)	Por espaço de trabalho	200

Limitações de rede e segurança

Os pontos de extremidade do Model Serving são protegidos pelo controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no espaço de trabalho, como listas de permissões de IP e Link Privado.
A conectividade privada (como o Azure Private Link) só é suportada para pontos de extremidade de serviço de modelo que usam taxa de transferência provisionada ou pontos de extremidade que servem modelos personalizados.
Por padrão, o Serviço de Modelo não oferece suporte ao Link Privado para pontos de extremidade externos (como o Azure OpenAI). O suporte para esta funcionalidade é avaliado e implementado por região. Entre em contato com sua equipe de conta do Azure Databricks para obter mais informações.
O Model Serving não fornece patches de segurança para imagens de modelo existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com sua equipe de conta Databricks para obter mais informações.

Limites das APIs do Modelo de Base

Nota

Como parte do fornecimento das APIs do Modelo Fundamental, o Databricks pode processar os seus dados fora da região where a partir da qual os dados foram originados, mas não fora da localização geográfica relevante.

Para cargas de trabalho de pagamento por token e taxa de transferência provisionada:

Somente os administradores do espaço de trabalho podem alterar as configurações de governança, como limites de taxa para pontos de extremidade de APIs do Modelo de Base. Para alterar os limites de taxa, use as seguintes etapas:
1. Abra a interface do usuário de serviço em seu espaço de trabalho para ver seus pontos de extremidade de serviço.
2. No menu kebab no ponto de extremidade das APIs do Modelo de Fundação que você deseja editar, selectExibir detalhes.
3. No menu kebab no canto superior direito da página de detalhes dos pontos finais, selectTaxa de alteração limit.
Os modelos de embutimento GTE Large (En) não generate incorporações normalizadas.

Limites de pagamento por token

A seguir estão os limites relevantes para cargas de trabalho de pagamento por token de APIs do Modelo de Base:

As cargas de trabalho de pagamento por token não são compatíveis com HIPAA ou perfil de segurança de conformidade.
modelos Meta Llama 3.3 70B e GTE Large (En) estão disponíveis em pay-per-token regiões suportadas pela UE e EUA.
Os seguintes modelos de pagamento por token são suportados apenas nas regiões dos EUA suportadas pelas APIs do Modelo de Base com suporte de pagamento por token:
- Meta Llama 3.1 405B Instruir
- DBRX Instruir
- Instruções Mixtral-8x7B
- BGE Grande (En)
Se o seu espaço de trabalho estiver em uma região de Serviço de Modelo, mas não em uma região dos EUA ou da UE, seu espaço de trabalho deverá estar habilitado para processamento de dados geográficos cruzados. Quando habilitada, sua carga de trabalho de pagamento por token é roteada para os EUA. Databricks Geo. Para ver quais regiões geográficas processam cargas de trabalho de pagamento por token, consulte Serviços designados do Databricks.

Limites de taxa de transferência provisionada

A seguir estão os limites relevantes para cargas de trabalho de taxa de transferência provisionadas de APIs do Modelo de Base:

A taxa de transferência provisionada oferece suporte ao perfil de conformidade com a HIPAA e é recomendada para cargas de trabalho que exigem certificações de conformidade.
Para usar a arquitetura do modelo DBRX para uma carga de trabalho de taxa de transferência provisionada, seu ponto de extremidade de serviço deve estar em uma das seguintes regiões:
- eastus
- eastus2
- westus
- centralus
- westeurope
- northeurope
- australiaeast
- canadacentral
- brazilsouth
A table a seguir mostra a disponibilidade regional dos modelos Meta Llama 3.1 e 3.2 suportados. Consulte Implantar modelos de base ajustados para obter orientação sobre como implantar modelos ajustados.

Variante do modelo Meta Llama	Regiões
meta-lama/Llama-3.1-8B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.1-8B-Instruir	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-lama/Llama-3.1-70B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-lama/Llama-3.1-70B-Instruir	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-lama/Llama-3.1-405B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-llama/Llama-3.1-405B-Instruir	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-lama/Llama-3.2-1B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-lama/Llama-3.2-1B-Instruir	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-lama/Llama-3.2-3B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.2-3B-Instruir	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.3-70B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`

Disponibilidade da região

Nota

Se você precisar de um ponto de extremidade em uma região sem suporte, entre em contato com sua equipe de conta do Azure Databricks.

Se o espaço de trabalho for implantado em uma região que ofereça suporte ao serviço de modelo, mas seja servido por um plano de controle em uma região sem suporte, o espaço de trabalho não suportará o serviço de modelo. Se você tentar usar o serviço de modelo em tal espaço de trabalho, você verá em uma mensagem de erro informando que seu espaço de trabalho não é suportado. Entre em contato com sua equipe de conta do Azure Databricks para obter mais informações.

Para obter mais informações sobre a disponibilidade regional de recursos, consulte Modelo que serve a disponibilidade regional.

Partilhar via