Dimensionar o chat do Azure OpenAI para Python usando RAG com Azure Container Apps
Saiba como adicionar balanceamento de carga ao seu aplicativo para estender o aplicativo de chat além dos limites de cota de modelo e token do Azure OpenAI. Essa abordagem usa os Aplicativos de Contêiner do Azure para criar três pontos de extremidade do Azure OpenAI, bem como um contêiner primário para direcionar o tráfego de entrada para um dos três pontos de extremidade.
Este artigo requer que você implante duas amostras separadas.
Aplicativo de chat
Se você ainda não implantou o aplicativo de chat, aguarde até que o exemplo do balanceador de carga seja implantado.
Se você já tiver implantado o aplicativo de chat uma vez, alterará a variável de ambiente para dar suporte a um ponto de extremidade personalizado para o balanceador de carga e reimplantá-lo novamente.
Aplicativo de chat disponível nestes idiomas:
Aplicativo balanceador de carga
Nota
Este artigo usa um ou mais modelos de aplicativo de IA como base para os exemplos e diretrizes no artigo. Os modelos de aplicativo de IA fornecem implementações de referência bem mantidas e fáceis de implantar que ajudam a garantir um ponto de partida de alta qualidade para seus aplicativos de IA.
Arquitetura para balanceamento de carga do OpenAI do Azure com Aplicativos de Contêiner do Azure
Como o recurso Azure OpenAI tem limites específicos de cota de token e modelo, um aplicativo de chat usando um único recurso do Azure OpenAI está propenso a ter falhas de conversa devido a esses limites.
Para usar o aplicativo de chat sem atingir esses limites, use uma solução com balanceamento de carga com os Aplicativos de Contêiner do Azure. Esta solução expõe perfeitamente um único ponto de extremidade dos Aplicativos de Contêiner do Azure para o servidor de aplicativo de chat.
O Aplicativo de Contêiner do Azure fica na frente de um conjunto de recursos do OpenAI do Azure. O Aplicativo de Contêiner resolve dois cenários: normal e limitado. Durante um cenário normal em que a cota de token e modelo estão disponíveis, o recurso do OpenAI do Azure retorna um 200 de volta por meio do Aplicativo de Contêiner e do Servidor de Aplicativos.
Quando um recurso está em um cenário limitado, como devido a limites de cota, o aplicativo de contêiner do Azure pode tentar novamente um recurso do OpenAI do Azure diferente imediatamente para realizar a solicitação de aplicativo de chat original.
Pré-requisitos
Assinatura do Azure. Crie um gratuitamente
Acesso concedido ao Azure OpenAI na assinatura desejada do Azure.
Atualmente, o acesso a esse serviço é concedido somente pelo aplicativo. Você pode solicitar acesso ao Azure OpenAI concluindo o formulário em https://aka.ms/oai/access.
Os contêineres de desenvolvimento estão disponíveis para ambos os exemplos, com todas as dependências necessárias para concluir este artigo. Você pode executar os contêineres de desenvolvimento em Codespaces do GitHub (em um navegador) ou localmente usando o Visual Studio Code.
- Conta do GitHub
Abrir o aplicativo de exemplo de balanceador local de aplicativos de contêiner
O GitHub Codespaces executa um contêiner de desenvolvimento gerenciado pelo GitHub com o Visual Studio Code para a web como a interface do usuário. Para o ambiente de desenvolvimento mais simples, use os Codespaces do GitHub para que você tenha as ferramentas e dependências de desenvolvedor corretas pré-instaladas para concluir este artigo.
Importante
Todas as contas do GitHub podem usar codespaces por até 60 horas gratuitas por mês com duas instâncias principais. Para saber mais, confira Armazenamento e horas por núcleo incluídos mensalmente no GitHub Codespaces.
Implantar o balanceador de carga dos Aplicativos de Contêiner do Azure
Entre na CLI do Desenvolvedor do Azure para fornecer autenticação às etapas de provisionamento e implantação.
azd auth login --use-device-code
Defina uma variável de ambiente para usar a autenticação da CLI do Azure para a etapa pós-provisionamento.
azd config set auth.useAzCliAuth "true"
Implante o aplicativo do balanceador de carga.
azd up
Você precisará selecionar uma assinatura e uma região para a implantação. Estas não precisam ser a mesma assinatura e região que o aplicativo de chat.
Aguarde a conclusão da implantação antes de continuar.
Obter o ponto de extremidade de implantação
Use o comando a seguir para exibir o endpoint do aplicativo contêiner do Azure implantado.
azd env get-values
Copie o valor
CONTAINER_APP_URL
. Você o usará na próxima seção.
Reimplantar o aplicativo de chat com o ponto de extremidade do balanceador de carga
Elas são concluídas no exemplo do aplicativo de chat.
Abra o contêiner de desenvolvimento do aplicativo de chat usando uma das opções a seguir.
Idioma Codespaces Visual Studio Code .NET JavaScript Python Entre na CLI do Desenvolvedor do Azure (AZD).
azd auth login
Conclua as instruções de entrada.
Crie um ambiente do AZD com um nome como
chat-app
.azd env new <name>
Adicione a variável de ambiente a seguir, que instrui o back-end do aplicativo Chat a usar uma URL personalizada para as solicitações OpenAI.
azd env set OPENAI_HOST azure_custom
Adicione a variável de ambiente a seguir, substituindo
<CONTAINER_APP_URL>
pela URL da seção anterior. Essa ação informa ao back-end do aplicativo Chat qual é o valor da URL personalizada para a solicitação OpenAI.azd env set AZURE_OPENAI_CUSTOM_URL <CONTAINER_APP_URL>
Implante o aplicativo de chat.
azd up
Agora você pode usar o aplicativo de chat com a confiança de que ele foi criado para ser escalado entre muitos usuários sem ficar sem cota.
Transmitir logs para ver os resultados do balanceador de carga
No portal do Azure, pesquise seu grupo de recursos.
Na lista de recursos no grupo, selecione o recurso Aplicativo de Contêiner.
Selecione Monitoramento –> fluxo de log para exibir o log.
Use o aplicativo de chat para gerar tráfego no log.
Procure os logs, que fazem referência aos recursos do OpenAI do Azure. Cada um dos três recursos tem sua identidade numérica no comentário de log começando com
Proxying to https://openai3
, em que3
indica o terceiro recurso do Azure OpenAI.Conforme você usa o aplicativo de chat, quando o balanceador de carga recebe o status de que a solicitação excedeu a cota, o balanceador de carga gira automaticamente para outro recurso.
Configurar a cota do TPM
Por padrão, cada uma das instâncias do OpenAI do Azure no load balancer é implantada com capacidade de 30.000 tokens por minuto (TPM). Você pode usar o aplicativo de chat com confiança de que ele foi projetado para escalar com muitos usuários sem exceder o limite. Altere esse valor quando:
- Se ocorrerem erros de capacidade de implantação: reduza o valor.
- Você precisa de maior capacidade: aumente o valor.
Use o seguinte comando para alterar o valor:
azd env set OPENAI_CAPACITY 50
Reimplantar o balanceador de carga:
azd up
Limpar recursos
Quando terminar de usar o aplicativo de chat e o balanceador de carga, limpe os recursos. Os recursos do Azure criados neste artigo são cobrados para sua assinatura do Azure. Se você não espera precisar desses recursos no futuro, exclua-os para evitar incorrer em mais encargos.
Limpar recursos do aplicativo de chat
Retorne ao artigo do aplicativo de chat para limpar esses recursos.
Limpar recursos do balanceador de upload
Execute o seguinte comando da CLI do Desenvolvedor do Azure para excluir os recursos do Azure e remover o código-fonte:
azd down --purge --force
Os interruptores fornecem:
-
purge
: os recursos excluídos são limpos imediatamente. Isso permite reutilizar o TPM do Azure OpenAI. force
: a exclusão ocorre silenciosamente, sem exigir o consentimento do usuário.
Limpar os codespaces do GitHub
A exclusão do ambiente GitHub Codespaces garante que você possa maximizar a quantidade de horas gratuitas por núcleo que você tem direito na sua conta.
Importante
Para saber mais sobre os direitos da sua conta do GitHub, confira O GitHub Codespaces inclui mensalmente armazenamento e horas de núcleo.
Conecte-se ao painel de controle do GitHub Codespaces (https://github.com/codespaces).
Localize seus Codespaces atualmente em execução, originados do repositório
azure-samples/openai-aca-lb
do GitHub.Abra o menu de contexto do codespace e selecione Excluir.
Obter ajuda
Se você tiver problemas para implantar o balanceador de carga do Gerenciamento de API do Azure, registre o seu problema nos Problemas do repositório.
Código de exemplo
Os exemplos usados neste artigo incluem:
Próxima etapa
- Usar o Teste de Carga do Azure para testar a carga do aplicativo de chat com