Tipos de implantação do OpenAI do Azure

Artigo
12/10/2024

O OpenAI do Azure fornece aos clientes opções sobre a estrutura de hospedagem que se ajusta aos seus padrões de negócios e de uso. O serviço oferece dois tipos principais de implantação: o padrão e o provisionado. Para um determinado tipo de implantação, os clientes podem alinhar as cargas de trabalho com seus requisitos de processamento de dados escolhendo uma geografia do Azure (Standard ou Provisioned), zona de dados especificada pela Microsoft (DataZone-Standard) ou opções de processamento globais (Global-Standard ou Global Provisioned-Managed).

Todas as implantações podem executar exatamente as mesmas operações de inferência; no entanto, a cobrança, a escala e o desempenho são substancialmente diferentes. Como parte do design da solução, você precisará tomar duas decisões importantes:

Local de processamento de dados
Volume de chamadas

Locais de processamento de dados de implantação do OpenAI do Azure

Para implantações padrão, há três opções de tipo de implantação para escolher: a global, a zona de dados e a geografia do Azure. Para implantações provisionadas, há duas opções de tipo de implantação para escolher: a global e a geografia do Azure. O padrão global é o ponto de partida recomendado.

As implantações globais aproveitam a infraestrutura global do Azure para rotear dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Isso significa que você obterá os limites de taxa de transferência iniciais mais altos e a melhor disponibilidade do modelo com o Global, ao mesmo tempo em que fornecerá nosso SLA de tempo de atividade e baixa latência. Para cargas de trabalho de alto volume acima das camadas de uso especificadas no padrão global e padrão, você pode experimentar uma variação de latência maior. Para clientes que exigem a menor variação de latência em uso de carga de trabalho grande, é recomendável aproveitar nossos tipos de implantação provisionados.

Nossas implantações globais serão o primeiro local para todos os novos modelos e recursos. Dependendo do volume de chamadas, os clientes com requisitos de variação de baixa latência e volume grande devem considerar nossos tipos de implantação provisionadas.

As implantações de zona de dados aproveitam a infraestrutura global do Azure para rotear dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente dentro da zona de dados definida pela Microsoft. Posicionadas entre nossas ofertas de implantação de geografia do Azure e global, as implantações de zona de dados fornecem limites de cotas elevados, mantendo o processamento de dados dentro da zona de dados especificada pela Microsoft. Os dados armazenados em repouso continuarão a permanecer na geografia do recurso OpenAI do Azure (por exemplo, para um recurso OpenAI do Azure criado na região do Azure da Suécia Central, a geografia do Azure é a Suécia).

Se o recurso OpenAI do Azure usado em sua implantação de zona de dados estiver localizado nos Estados Unidos, os dados serão processados lá. Se o recurso OpenAI do Azure usado em sua implantação de zona de dados estiver localizado em uma nação membro da União Europeia, os dados serão processados dentro das geografias da nação membro da União Europeia. Para todos os tipos de implantação de serviço OpenAI do Azure, todos os dados armazenados em repouso continuarão na geografia do recurso OpenAI do Azure. Os compromissos de conformidade e processamento de dados do Azure permanecem aplicáveis.

Para qualquer tipo de implantação rotulado como "Global", as solicitações e as respostas podem ser processadas em qualquer localização geográfica onde o modelo do Serviço OpenAI do Azure esteja implantado (saiba mais sobre a disponibilidade regional dos modelos). Para qualquer tipo de implantação rotulado como "DataZone", as solicitações e as respostas podem ser processadas em qualquer localização geográfica dentro da zona de dados especificada, conforme definido pela Microsoft. Se você criar uma implantação do tipo DataZone em um recurso do Serviço OpenAI do Azure localizado nos Estados Unidos, as solicitações e as respostas podem ser processadas em qualquer lugar dentro dos Estados Unidos. Se você criar uma implantação do tipo DataZone em um recurso do Serviço OpenAI do Azure localizado em um país membro da União Europeia, as solicitações e as respostas podem ser processadas nesse país ou em qualquer outro país membro da União Europeia. Para os tipos de implantação Global e DataZone, todos os dados inativos armazenados, como dados carregados, são armazenados na localização geográfica designada pelo cliente. Somente a localização geográfica do processamento é afetada quando um cliente usa um tipo de implantação "Global" ou "DataZone" no Serviço OpenAI do Azure; os compromissos de conformidade e processamento de dados do Azure continuam aplicáveis.

Tipos de implantação

O OpenAI do Azure oferece três tipos de implantações. Elas fornecem um nível variado de funcionalidades que fornecem compensações em: taxa de transferência, SLAs e preço. Veja abaixo um resumo das opções seguidas por uma descrição mais profunda de cada uma.

Oferta	Global-Batch	Global-Standard	Global-Provisionado	Standard	Provisionado
Mais indicada para	Pontuação offline Cargas de trabalho que não diferenciam latência e podem ser concluídas em horas.	Local de início recomendado para clientes. O Global-Standard terá a cota padrão mais alta e um número maior de modelos disponíveis do que o Standard.	Pontuação em tempo real para um grande volume consistente. Inclui os maiores compromissos e limites.	Para clientes com requisitos de residência de dados. Otimizada para volume baixo a médio.	Pontuação em tempo real para um grande volume consistente. Inclui os maiores compromissos e limites. Para casos de uso com requisitos de residência de dados
Como funciona	Processamento offline por meio de arquivos	O tráfego pode ser roteado em qualquer lugar do mundo	O tráfego pode ser roteado em qualquer lugar do mundo
Guia de Introdução	Global-Batch	Implantação de modelo	Integração provisionada	Implantação de modelo	Integração provisionada
Custo	Opção mais barata Custo 50% menor em comparação com os preços padrão global. Acesso a todos os novos modelos com alocações de cota maiores.	Preço da implantação global	Pode ter economia de custos para uso consistente	Preços regionais	Pode ter economia de custos para uso consistente
O que você obtém	Desconto significativo em comparação com o Global Standard	Fácil acesso a todos os novos modelos com os limites de pagamento por chamada padrão mais altos. Clientes com alto uso de volume podem ver maior variabilidade de latência	Acesso à alta e previsível taxa de transferência em toda a infraestrutura global do Azure. Determine a taxa de transferência por PTU usando a calculadora de capacidade fornecida.	SLA sobre disponibilidade. Otimizada para cargas de trabalho de baixo a médio volume com alta intermitência. Clientes com alto volume consistente podem ter maior variabilidade de latência.	Acesso regional com taxa de transferência muito alta e previsível. Determinação da a taxa de transferência por PTU usando a calculadora de capacidade fornecida
O que você não recebe	❌Desempenho rápido em tempo real ❌Garantia de processamento de dados Os dados armazenados inativos permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados	❌Garantia de processamento de dados Os dados armazenados inativos permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados	❌Flexibilidade de pagamento por chamada ❌Garantia de processamento de dados Os dados armazenados inativos permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados	❌Alto volume com baixa latência consistente	❌Flexibilidade de pagamento por chamada
Latência por chamada	Não aplicável (processo assíncrono baseado em arquivo)	Otimizada para chamada em tempo real e uso de volume baixo a médio. Clientes com alto uso de volume podem ver maior variabilidade de latência. Conjunto de limites por modelo	Otimizado para chamada em tempo real e uso de alto volume.	Otimizada para chamada em tempo real e uso de volume baixo a médio. Clientes com alto uso de volume podem ver maior variabilidade de latência. Conjunto de limites por modelo	Otimizado para chamada em tempo real e uso de alto volume.
Nome do SKU no código	`GlobalBatch`	`GlobalStandard`	`GlobalProvisionedManaged`	`Standard`	`ProvisionedManaged`
Modelo de cobrança	Pagamento por token	Pagamento por token	Cobrança por hora com compra opcional de reservas mensais ou anuais	Pagamento por token	Cobrança por hora com compra opcional de reservas mensais ou anuais

Padrão global

Importante

Os dados armazenados inativos permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados.

As implantações globais estão disponíveis nos mesmos recursos do OpenAI do Azure que os tipos de implantação não globais, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center com a melhor disponibilidade para cada solicitação. O padrão global fornece a cota padrão mais alta e elimina a necessidade de balanceamento de carga entre vários recursos.

Clientes com alto volume consistente podem ter maior variabilidade de latência. O limite é definido por modelo. Consulte a página de cotas para saber mais. Para aplicativos que exigem a menor variação de latência em uso grande de carga de trabalho, recomendamos a compra de taxa de transferência provisionada.

Provisionado globalmente

Importante

As implantações globais estão disponíveis nos mesmos recursos do OpenAI do Azure que os tipos de implantação não globais, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center com a melhor disponibilidade para cada solicitação. As implantações provisionadas globais fornecem capacidade de processamento de modelo reservado para uma taxa de transferência alta e previsível usando a infraestrutura global do Azure.

Lote global

Importante

Lote global foi projetado para lidar com tarefas de processamento em grande escala e de alto volume com eficiência. Processe grupos assíncronos de solicitações com cota separada, com reviravolta de destino de 24 horas, a custos 50% menor que o padrão global. Com o processamento em lote, em vez de enviar uma solicitação por vez, você deve enviar um grande número de solicitações em um único arquivo. As solicitações em lotes globais têm uma cota de token enfileirada separada, evitando qualquer interrupção das suas cargas de trabalho online.

Os casos de uso incluem:

Processamento de dados em larga escala: analisar rapidamente conjuntos de dados extensos em paralelo.
Geração de Conteúdo: Criar grandes volumes de texto, como descrições de produto ou artigos.
Revisão e Resumo de Documentos: automatizar a revisão e o resumo de documentos longos.
Automação de Suporte ao Cliente: lidar com várias consultas simultaneamente para obter respostas mais rápidas.
Extração e Análise de Dados: extrair e analisar informações de grandes quantidades de dados não estruturados.
Tarefas do Processamento de Linguagem Natural (NLP): execute tarefas como análise de sentimento ou tradução em grandes conjuntos de dados.
Marketing e Personalização: gere conteúdo personalizado e recomendações em escala.

Padrão de zona de dados

Importante

Os dados armazenados inativos permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do OpenAI do Azure dentro da zona de dados especificada da Microsoft. Saiba mais sobre residência de dados.

As implantações padrão de zona de dados estão disponíveis no mesmo recurso do OpenAI do Azure que todos os outros tipos de implantação do OpenAI do Azure, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação. O padrão de zona de dados fornece cotas padrão mais altas do que nossos tipos de implantação baseados em geografia do Azure.

Clientes com alto volume consistente podem ter maior variabilidade de latência. O limite é definido por modelo. Consulte a página Cotas e limites para saber mais. Para cargas de trabalho que exigem baixa variação de latência em grande volume, é recomendável aproveitar as ofertas de implantação provisionada.

Standard

As implantações padrão fornecem um modelo de cobrança paga por chamada no modelo escolhido. Fornece a maneira mais rápida de começar, pois você paga apenas pelo que consome. Os modelos disponíveis em cada região, bem como a taxa de transferência, podem ser limitados.

As implantações padrão são otimizadas para cargas de trabalho de baixo a médio volume com alta intermitência. Clientes com alto volume consistente podem ter maior variabilidade de latência.

Provisionado

As implantações provisionadas permitem especificar a quantidade de taxa de transferência necessária em uma implantação. Em seguida, o serviço aloca a capacidade de processamento de modelo necessária e garante que ele esteja pronto para você. A taxa de transferência é definida em termos de PTU (unidades de taxa de transferência provisionada), que é uma maneira normalizada de representar a taxa de transferência para sua implantação. Cada par de modelo/versão requer diferentes quantidades de PTU para implantar e fornecer diferentes quantidades de taxa de transferência por PTU. Saiba mais em nosso Artigo sobre conceitos de taxa de transferência provisionada.

Como desabilitar o acesso a implantações globais em sua assinatura

O Azure Policy ajuda a impor padrões organizacionais e a avaliar a conformidade em escala. Por meio do painel de conformidade, ele fornece uma exibição agregada para avaliar o estado geral do ambiente, com a capacidade de drill down para a granularidade por recurso, por política. Ele também ajuda a deixar seus recursos em conformidade por meio da correção em massa de recursos existentes e da correção automática para novos recursos. Saiba mais sobre o Azure Policy e controles internos específicos para serviços de IA.

Você pode usar a política a seguir para desabilitar o acesso às implantações padrão global do OpenAI do Azure. Para desabilitar o acesso a implantações globais de lote provisionadas ou globais do Azure, substitua GlobalStandard por GlobalProvisionedManaged ou GlobalBatch para o nome de SKU pretendido.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Implantar modelos

Para saber mais sobre como criar recursos e implantar modelos, consulte o guia de criação de recursos.

Compartilhar via

Tipos de implantação do OpenAI do Azure

Locais de processamento de dados de implantação do OpenAI do Azure

Tipos de implantação

Padrão global

Provisionado globalmente

Lote global

Padrão de zona de dados

Standard

Provisionado

Como desabilitar o acesso a implantações globais em sua assinatura

Implantar modelos

Confira também

Comentários

Recursos adicionais