Usar GPUs sem servidor nos Aplicativos de Contêiner do Azure (versão prévia)
Os Aplicativos de Contêiner do Azure fornecem acesso a GPUs sob demanda sem que você precise gerenciar a infraestrutura subjacente. Como um recurso sem servidor, você paga apenas por GPUs em uso. Quando habilitado, o número de GPUs usadas para seu aplicativo aumenta e diminui para atender às demandas de carga do seu aplicativo. As GPUs sem servidor permitem que você execute perfeitamente suas cargas de trabalho com dimensionamento automático, inicialização a frio otimizado, cobrança por segundo com redução vertical para zero quando não estiver em uso e sobrecarga operacional reduzida.
GPUs sem servidor só têm suporte para perfis de carga de trabalho de consumo. Não há suporte para o recurso para ambientes somente consumo.
Observação
O acesso às GPUs só estará disponível após solicitar cotas de GPU. Envie sua solicitação de cota de GPU por meio de um caso de suporte ao cliente.
Benefícios
GPUs sem servidor aceleram o desenvolvimento de IA, permitindo que você se concentre no código principal de IA e menos no gerenciamento de infraestrutura ao usar GPUs. Esse recurso fornece uma opção de camada intermediária entre as APIs sem servidor do catálogo de modelos de IA do Azure e modelos de hospedagem na computação gerenciada.
O suporte à GPU sem servidor dos Aplicativos de Contêiner fornece governança de dados completa, pois seus dados nunca saem dos limites do contêiner enquanto ainda fornecem uma plataforma gerenciada e sem servidor da qual compilar seus aplicativos.
Quando você usa GPUs sem servidor em Aplicativos de Contêiner, seus aplicativos obtêm:
GPUs de dimensionamento para zero: suporte para dimensionamento automático sem servidor de GPUs NVIDIA A100 e NVIDIA T4.
Cobrança por segundo: pague apenas pela computação de GPU usada.
Governança de dados integrada: seus dados nunca saem do limite do contêiner.
Opções de computação flexíveis: você pode escolher entre os tipos de GPU NVIDIA A100 ou T4.
Camada intermediária para desenvolvimento de IA: traga seu próprio modelo em uma plataforma de computação gerenciada e sem servidor.
Cenários comuns
Os cenários a seguir, embora não sejam abrangentes, descrevem casos de uso comuns para GPUs sem servidor.
Inferência em tempo real e em lote: usando modelos de código aberto personalizados com tempos de início rápido, dimensionamento automático e um modelo de cobrança por segundo. GPUs sem servidor são ideais para aplicativos dinâmicos. Você paga apenas pela computação que usa e seus aplicativos são expandidos e reduzidos horizontalmente automaticamente para atender à demanda.
Cenários de machine learning: acelere significativamente os aplicativos que implementam modelos de IA generativa personalizados ajustados, aprendizado profundo, redes neurais ou análise de dados em grande escala.
HPC (Computação de alto desempenho): aplicativos que exigem simulações e cálculos complexos, como computação científica, modelagem financeira ou previsão do tempo, usam GPUs como recursos para altas demandas computacionais.
Renderização e Visualização: aplicativos que envolvem renderização 3D, processamento de imagem ou transcodificação de vídeo geralmente usam GPUs para acelerar o processo de renderização e habilitar a visualização em tempo real.
Análise de Big Data: as GPUs podem acelerar o processamento e a análise de dados entre conjuntos de dados maciços.
Considerações
Considere os seguintes itens ao usar GPUs sem servidor:
Versão da CUDA: GPUs sem servidor dão suporte à versão mais recente da CUDA
Limitações de suporte:
- Somente um contêiner em um aplicativo pode usar a GPU por vez.
- Vários aplicativos podem compartilhar o mesmo perfil de carga de trabalho de GPU, mas cada um requer sua própria réplica.
- Não há suporte para réplicas de GPU multi e fracionárias.
- O primeiro contêiner em seu aplicativo obtém acesso à GPU.
Endereços IP: as GPUs de consumo usam um endereço IP por réplica quando você configura a integração com sua própria rede virtual.
Solicitar cota de GPU sem servidor
O acesso a esse recurso só estará disponível depois que você tiver uma cota de GPU sem servidor. Envie sua solicitação de cota de GPU por meio de um caso de suporte ao cliente. Ao abrir um caso de suporte para uma solicitação de cota de GPU, selecione o tipo de problema "Técnico".
Observação
Os clientes com contratos enterprise têm uma única cota de GPU T4 habilitada por padrão.
Regiões com suporte
GPUs sem servidor estão disponíveis em versão prévia nas regiões Oeste dos EUA 3 e Leste da Austrália.
Usar GPUs sem servidor
Ao criar um aplicativo de contêiner por meio do portal do Azure, você pode configurar seu contêiner para usar recursos de GPU.
Na guia Contêiner do processo de criação, defina as seguintes configurações:
Na seção Alocação de recursos de contêiner, marque a caixa de seleção GPU.
Para o Tipo de GPU*, selecione a opção NVIDIA A100 ou NVIDIA T4.
Gerenciar o perfil de carga de trabalho de GPU sem servidor
GPUs sem servidor são executadas em perfis de carga de trabalho de GPU de consumo. Você gerencia um perfil de carga de trabalho de GPU de consumo da mesma maneira que qualquer outro perfil de carga de trabalho. Você pode gerenciar seu perfil de carga de trabalho usando a CLI ou o portal do Azure.
Melhorar a inicialização a frio da GPU
Você pode melhorar a inicialização a frio em seus contêineres habilitados para GPU habilitando a transmissão de artefatos no Registro de Contêiner do Azure.
Observação
Para usar a transmissão de artefatos, suas imagens de contêiner devem ser hospedadas no Registro de Contêiner do Azure.
Use as etapas a seguir para habilitar a transmissão de imagem:
Abra o Registro de Contêiner do Azure no portal do Azure.
Pesquise Repositórios e selecione Repositórios.
Selecionar o nome do seu repositório.
Na janela Repositório, selecione Iniciar transmissão de artefato.
Selecione a marca da imagem que você deseja transmitir.
Na janela exibida, selecione Criar artefato de transmissão.
Enviar comentários
Envie um problema para o repositório GitHub dos Aplicativos de Contêiner do Azure.