Partilhar via


Acelerador de zona de aterrissagem de computação de alto desempenho (HPC) do Azure

O acelerador de zona de pouso de computação de alto desempenho (HPC) automatiza a implantação de um ambiente. Esse ambiente fornece uma estrutura básica que você pode personalizar para criar um mecanismo de implantação de ponta a ponta para uma solução completa de cluster HPC no Azure. O acelerador é uma coleção de scripts de código aberto e modelos que podem preparar suas zonas de aterrissagem em escala empresarial. Ele pode fornecer uma abordagem de arquitetura específica e uma implementação de referência que aderem à arquitetura e às práticas recomendadas do Cloud Adoption Framework.

Os clientes adotam a HPC de várias maneiras para atender às suas necessidades de negócios, e você pode adaptar o acelerador de zona de pouso HPC para produzir uma arquitetura que se adapte à sua maneira. Usar o acelerador ajuda a colocar sua organização no caminho para uma escala sustentável.

Implementar uma zona de aterrissagem em escala empresarial

O acelerador de zona de aterragem HPC pressupõe que está a começar com uma zona de aterragem à escala empresarial que foi implementada com sucesso. Para obter mais informações sobre esse pré-requisito, consulte os seguintes artigos:

O que o acelerador da zona de aterragem HPC fornece

A aproximação às zonas de aterragem do acelerador da zona de aterragem HPC fornece os seguintes ativos ao seu projeto:

  • Uma abordagem modular, para que você possa personalizar variáveis de ambiente
  • Conceber orientações para ajudar na avaliação de decisões críticas
  • A arquitetura da zona de desembarque
  • Uma implementação que inclui:
    • Uma referência implantável capaz de criar o ambiente para sua implantação de HPC
    • Uma implementação de referência HPC aprovada pela Microsoft para testar o ambiente implantado

Diretrizes de design para energia, manufatura e finanças

As arquiteturas das zonas de desembarque variam de acordo com o setor de negócio, além de variar de acordo com a organização. Esta seção lista artigos por setor que fornecem diretrizes para criar sua zona de pouso:

Diretrizes de design para escolher computação HPC para cargas de trabalho de IA

Escolher o SKU certo de computação otimizada para GPU para cargas de trabalho de IA é importante para otimizar o desempenho e controlar os custos. A Microsoft oferece muitos SKUs diferentes que são otimizados para cargas de trabalho que se beneficiam de mais potência da GPU. Há várias considerações ao escolher o SKU certo para cargas de trabalho de IA. Cargas de trabalho menores podem aproveitar apenas uma fração da CPU, GPU e largura de banda de SKUs mais poderosos, como o NDv4. Você pode considerar outras SKUs de computação, como NCv4 e NDv2, para trabalhos menores. Aqui estão algumas considerações ao escolher o SKU certo de computação otimizada para GPU para cargas de trabalho de IA:

  • Ponto de verificação. Considere fatores como o intervalo de pontos de verificação ao executar seus modelos de aprendizado de máquina. Isso pode afetar o desempenho da GPU durante a fase de treinamento. Estabeleça um equilíbrio entre a eficiência do armazenamento e a manutenção de operações suaves da GPU. Monitore o uso da GPU.
  • Inferência. Os requisitos de inferência diferem dos requisitos de treinamento, com uma possível carga de CPU mais alta que pode maximizar o desempenho da CPU. Considere os requisitos de inferência do seu modelo ao selecionar uma SKU de computação. Monitore o uso da CPU.
  • Formação. Considere os requisitos do seu modelo durante o treinamento, monitorando o uso da CPU e da GPU.
  • Dimensionamento de trabalhos. Ao considerar o SKU de computação para suas cargas de trabalho de IA, considere o tamanho do trabalho. Trabalhos menores, como aqueles aproximadamente OPT 1.3B podem não aproveitar tamanhos maiores de SKU e podem deixar a CPU e GPU ociosas dependendo do estágio do trabalho (inferência, treinamento).
  • Largura de banda. Largura de banda maior e de menor latência pode ser uma despesa quando não utilizada. Considere InfiniBand apenas para os modelos maiores que exigirão a largura de banda extra.

Exiba os tamanhos de máquina virtual otimizados para GPU do Azure.

Exemplo: arquitetura conceptual de referência para a energia

A arquitetura de referência conceitual a seguir é um exemplo que mostra áreas de projeto e práticas recomendadas para ambientes de energia .

Diagram that shows an example architecture for an energy environment, including compute, storage, subnets, a database, and a front end for on-premises users.

Exemplo: arquitetura de referência conceitual para finanças

A arquitetura de referência conceitual a seguir é um exemplo que mostra áreas de design e práticas recomendadas para ambientes financeiros .

Diagram that shows an example architecture for a finance environment, including on-premises resources, virtual network, subnets, and network security groups.

Exemplo: arquitetura de referência conceitual para manufatura

A arquitetura de referência conceitual a seguir é um exemplo que mostra áreas de projeto e práticas recomendadas para ambientes de fabricação .

Diagram that shows an example architecture for a manufacturing environment, including on-premises and cloud resources and an HPC landing zone.

Obter o acelerador da zona de aterragem HPC

O acelerador de zona de aterrissagem HPC está disponível no GitHub: Azure HPC OnDemand Platform Accelerator

Próximos passos

Para obter considerações e recomendações para sua arquitetura de acelerador de zona de aterrissagem HPC, revise as áreas críticas de design do acelerador de zona de aterrissagem HPC no Azure Identity and Access Management.