Acelerador de zona de aterrissagem de computação de alto desempenho (HPC) do Azure
O acelerador de zona de pouso de computação de alto desempenho (HPC) automatiza a implantação de um ambiente. Esse ambiente fornece uma estrutura básica que você pode personalizar para criar um mecanismo de implantação de ponta a ponta para uma solução completa de cluster HPC no Azure. O acelerador é uma coleção de scripts de código aberto e modelos que podem preparar suas zonas de aterrissagem em escala empresarial. Ele pode fornecer uma abordagem de arquitetura específica e uma implementação de referência que aderem à arquitetura e às práticas recomendadas do Cloud Adoption Framework.
Os clientes adotam a HPC de várias maneiras para atender às suas necessidades de negócios, e você pode adaptar o acelerador de zona de pouso HPC para produzir uma arquitetura que se adapte à sua maneira. Usar o acelerador ajuda a colocar sua organização no caminho para uma escala sustentável.
Implementar uma zona de aterrissagem em escala empresarial
O acelerador de zona de aterragem HPC pressupõe que está a começar com uma zona de aterragem à escala empresarial que foi implementada com sucesso. Para obter mais informações sobre esse pré-requisito, consulte os seguintes artigos:
- Comece com as zonas de aterrissagem em escala empresarial do Cloud Adoption Framework
- Implementar zonas de aterrissagem em escala empresarial do Cloud Adoption Framework no Azure
O que o acelerador da zona de aterragem HPC fornece
A aproximação às zonas de aterragem do acelerador da zona de aterragem HPC fornece os seguintes ativos ao seu projeto:
- Uma abordagem modular, para que você possa personalizar variáveis de ambiente
- Conceber orientações para ajudar na avaliação de decisões críticas
- A arquitetura da zona de desembarque
- Uma implementação que inclui:
- Uma referência implantável capaz de criar o ambiente para sua implantação de HPC
- Uma implementação de referência HPC aprovada pela Microsoft para testar o ambiente implantado
Diretrizes de design para energia, manufatura e finanças
As arquiteturas das zonas de desembarque variam de acordo com o setor de negócio, além de variar de acordo com a organização. Esta seção lista artigos por setor que fornecem diretrizes para criar sua zona de pouso:
Energia (Petróleo e Gás)
- Azure Billing e Microsoft Entra locatários para HPC de energia
- Gerenciamento de identidade e acesso para HPC do Azure em energia
- Gerenciamento para HPC do Azure em energia
- Topologia de rede e conectividade para HPC do Azure em energia
- Automação da plataforma e DevOps para HPC do Azure em energia
- Organização de recursos para HPC na indústria de energia
- Governação da HPC nas indústrias energéticas
- Segurança para HPC do Azure em energia
- Calcular cargas de trabalho de aplicações HPC em grande escala em VMs do Azure
- Armazenamento para ambientes energéticos HPC
Manufacturing
- Faturação do Azure HPC de fabrico e inquilinos do Ative Directory
- Gerenciamento de identidade e acesso do Azure para HPC na fabricação
- Gestão da HPC na indústria transformadora
- Fabricação de topologia e conectividade de rede HPC
- Automação de plataforma e DevOps para HPC do Azure na indústria de manufatura
- Organização de recursos de HPC de fabricação
- Governança do Azure para HPC de fabricação
- Segurança para HPC nas indústrias transformadoras
- Fabrico de armazenamento HPC
Finanças
- Ofertas de cobrança do Azure e locatários do Ative Directory para HPC de finanças
- Finanças: Gerenciamento de identidade e acesso do Azure HPC
- Gestão da HPC no setor financeiro
- Topologia de rede e conectividade para HPC no setor financeiro
- Automação de plataformas e DevOps para HPC no setor financeiro
- Organização de recursos para o Azure HPC no setor financeiro
- Governação para a HPC financeira
- Segurança da HPC no setor financeiro
- Armazenamento para HPC no setor financeiro
Diretrizes de design para escolher computação HPC para cargas de trabalho de IA
Escolher o SKU certo de computação otimizada para GPU para cargas de trabalho de IA é importante para otimizar o desempenho e controlar os custos. A Microsoft oferece muitos SKUs diferentes que são otimizados para cargas de trabalho que se beneficiam de mais potência da GPU. Há várias considerações ao escolher o SKU certo para cargas de trabalho de IA. Cargas de trabalho menores podem aproveitar apenas uma fração da CPU, GPU e largura de banda de SKUs mais poderosos, como o NDv4. Você pode considerar outras SKUs de computação, como NCv4 e NDv2, para trabalhos menores. Aqui estão algumas considerações ao escolher o SKU certo de computação otimizada para GPU para cargas de trabalho de IA:
- Ponto de verificação. Considere fatores como o intervalo de pontos de verificação ao executar seus modelos de aprendizado de máquina. Isso pode afetar o desempenho da GPU durante a fase de treinamento. Estabeleça um equilíbrio entre a eficiência do armazenamento e a manutenção de operações suaves da GPU. Monitore o uso da GPU.
- Inferência. Os requisitos de inferência diferem dos requisitos de treinamento, com uma possível carga de CPU mais alta que pode maximizar o desempenho da CPU. Considere os requisitos de inferência do seu modelo ao selecionar uma SKU de computação. Monitore o uso da CPU.
- Formação. Considere os requisitos do seu modelo durante o treinamento, monitorando o uso da CPU e da GPU.
- Dimensionamento de trabalhos. Ao considerar o SKU de computação para suas cargas de trabalho de IA, considere o tamanho do trabalho. Trabalhos menores, como aqueles aproximadamente OPT 1.3B podem não aproveitar tamanhos maiores de SKU e podem deixar a CPU e GPU ociosas dependendo do estágio do trabalho (inferência, treinamento).
- Largura de banda. Largura de banda maior e de menor latência pode ser uma despesa quando não utilizada. Considere InfiniBand apenas para os modelos maiores que exigirão a largura de banda extra.
Exiba os tamanhos de máquina virtual otimizados para GPU do Azure.
Exemplo: arquitetura conceptual de referência para a energia
A arquitetura de referência conceitual a seguir é um exemplo que mostra áreas de projeto e práticas recomendadas para ambientes de energia .
Exemplo: arquitetura de referência conceitual para finanças
A arquitetura de referência conceitual a seguir é um exemplo que mostra áreas de design e práticas recomendadas para ambientes financeiros .
Exemplo: arquitetura de referência conceitual para manufatura
A arquitetura de referência conceitual a seguir é um exemplo que mostra áreas de projeto e práticas recomendadas para ambientes de fabricação .
Obter o acelerador da zona de aterragem HPC
O acelerador de zona de aterrissagem HPC está disponível no GitHub: Azure HPC OnDemand Platform Accelerator
Próximos passos
Para obter considerações e recomendações para sua arquitetura de acelerador de zona de aterrissagem HPC, revise as áreas críticas de design do acelerador de zona de aterrissagem HPC no Azure Identity and Access Management.