Configurar a InfiniBand
Este artigo faz referência ao CentOS, uma distribuição Linux que está se aproximando do status de Fim da Vida Útil (EOL). Por favor, considere o seu uso e planeje de acordo. Para obter mais informações, consulte as diretrizes de Fim da Vida Útil do CentOS.
Aplica-se a: ✔️ VMs ✔️ Linux VMs ✔️ do Windows Conjuntos ✔️ de escala flexíveis Conjuntos de balanças uniformes
Gorjeta
Experimente a ferramenta Seletor de máquinas virtuais para encontrar outros tamanhos que melhor se adaptem à sua carga de trabalho.
Este artigo compartilha algumas informações sobre instâncias compatíveis com RDMA a serem usadas em uma rede InfiniBand (IB). A arquitetura de rede InfiniBand apresenta um design de árvore gorda completa (que é uma topologia de rede que fornece alta largura de banda e baixa latência), garantindo simetria biseccional sem bloqueio. Essa configuração fornece largura de banda igual entre quaisquer duas máquinas virtuais (VMs) dentro do mesmo conjunto de escala de máquina virtual (VMSS).
Instâncias com capacidade de RDMA
A maioria dos tamanhos de VM HPC apresenta uma interface de rede para conectividade RDMA (acesso remoto direto à memória). Os tamanhos selecionados da série N designados com «r» também são compatíveis com RDMA. Essa interface é adicional à interface de rede Ethernet padrão do Azure disponível nos outros tamanhos de VM.
Essa interface secundária permite que as instâncias compatíveis com RDMA se comuniquem através de uma rede InfiniBand, operando com taxas HDR para HBv4, HBv3, HBv2, taxas EDR para taxas HB, HC, HX, NDv2 e FDR para H16r, H16mr e outras máquinas virtuais da série N compatíveis com RDMA. Esses recursos RDMA podem aumentar a escalabilidade e o desempenho de aplicativos baseados em MPI (Message Passing Interface).
Nota
Suporte a SR-IOV: no Azure HPC, atualmente há duas classes de VMs, dependendo se elas estão habilitadas para SR-IOV para InfiniBand. Atualmente, quase todas as VMs de geração mais recente, compatíveis com RDMA ou habilitadas para InfiniBand no Azure são habilitadas para SR-IOV, exceto para H16r, H16mr e NC24r. O RDMA só está habilitado na rede InfiniBand e é suportado para todas as VMs compatíveis com RDMA. IP sobre IB só é suportado nas VMs habilitadas para SR-IOV. O RDMA não está ativado através da rede Ethernet.
Sistema Operacional - Distribuições Linux como CentOS, RHEL, AlmaLinux, Ubuntu, SUSE são comumente usadas. O Windows Server 2016 e versões mais recentes são suportados em todas as VMs da série HPC. Observe que o Windows Server 2012 R2 não é suportado no HBv2 em diante como tamanhos de VM com mais de 64 núcleos (virtuais ou físicos). Consulte Imagens de VM para obter uma lista de imagens de VM Linux suportadas no Azure Marketplace e como elas podem ser configuradas adequadamente. As respetivas páginas de tamanho de VM também listam o suporte à pilha de software.
InfiniBand e drivers - Em VMs habilitadas para InfiniBand, os drivers apropriados são necessários para habilitar o RDMA. Consulte habilitar o InfiniBand para saber mais sobre extensões de VM ou instalação manual de drivers InfiniBand.
MPI - Os tamanhos de VM habilitados para SR-IOV no Azure permitem que quase qualquer tipo de MPI seja usado com o Mellanox OFED. Consulte Configurar MPI para HPC para obter mais detalhes sobre como configurar o MPI em VMs HPC no Azure.
Nota
Espaço de endereçamento de rede RDMA: A rede RDMA no Azure reserva o espaço de endereço 172.16.0.0/16. Para executar aplicativos MPI em instâncias implantadas em uma rede virtual do Azure, verifique se o espaço de endereço da rede virtual não se sobrepõe à rede RDMA.
Opções de configuração de clusters
O Azure fornece várias opções para criar clusters de VMs HPC que podem se comunicar usando a rede RDMA, incluindo:
Máquinas virtuais - Implante as VMs HPC compatíveis com RDMA no mesmo conjunto de escala ou conjunto de disponibilidade (quando você usa o modelo de implantação do Azure Resource Manager). Se você usar o modelo de implantação clássico, implante as VMs no mesmo serviço de nuvem.
Conjuntos de dimensionamento de máquina virtual - Em um conjunto de dimensionamento de máquina virtual, certifique-se de limitar a implantação a um único grupo de posicionamento para comunicação InfiniBand dentro do conjunto de escala. Por exemplo, em um modelo do Gerenciador de Recursos, defina a
singlePlacementGroup
propriedade comotrue
.
Observe que o tamanho máximo do conjunto de escala que pode ser girado é singlePlacementGroup=true
limitado a 100 VMs por padrão. Se as suas necessidades de escala de trabalho HPC forem superiores a 100 VMs em um único locatário, você pode solicitar um aumento, abrir uma solicitação de suporte ao cliente on-line sem nenhum custo. O limite do número de VMs em um único conjunto de escala pode ser aumentado para 300. Observe que, ao implantar VMs usando Conjuntos de Disponibilidade, o limite máximo é de 200 VMs por Conjunto de Disponibilidade.
Além disso, o VMSS serve como o limite de isolamento entre cargas de trabalho dentro do mesmo cluster, garantindo que instâncias em VMSSs diferentes permaneçam isoladas umas das outras para garantir a segurança.
Nota
MPI entre máquinas virtuais: se for necessário RDMA (por exemplo, usando comunicação MPI) entre máquinas virtuais, verifique se as VMs estão no mesmo conjunto de escala de máquina virtual ou conjunto de disponibilidade.
Azure CycleCloud - Crie um cluster HPC usando o Azure CycleCloud para executar trabalhos MPI.
Azure Batch - Crie um pool de Lotes do Azure para executar cargas de trabalho MPI. Para usar instâncias de computação intensiva ao executar aplicativos MPI com o Azure Batch, consulte Usar tarefas de várias instâncias para executar aplicativos MPI (Message Passing Interface) no Azure Batch.
O Microsoft HPC Pack HPC Pack - inclui um ambiente de tempo de execução para MS-MPI que usa a rede RDMA do Azure quando implantado em VMs Linux compatíveis com RDMA. Por exemplo, implantações, consulte Configurar um cluster RDMA Linux com HPC Pack para executar aplicativos MPI.
Considerações sobre implementação
Subscrição do Azure – Para implementar mais do que algumas instâncias de computação intensiva, considere uma subscrição pré-paga ou outras opções de compra. Se estiver a utilizar uma conta gratuita do Azure, pode utilizar apenas um número limitado de núcleos de computação do Azure.
Preço e disponibilidade - Verifique os preços e a disponibilidade da VM por regiões do Azure.
Cota de núcleos – Talvez seja necessário aumentar a cota de núcleos em sua assinatura do Azure a partir do valor padrão. Sua assinatura também pode limitar o número de núcleos que você pode implantar em determinadas famílias de tamanhos de VM, incluindo a série H. Para pedir um aumento de quota, abra um pedido de suporte ao cliente online, sem custos. (Os limites padrão podem variar dependendo da sua categoria de assinatura.)
Nota
Entre em contato com o Suporte do Azure se tiver necessidades de capacidade em grande escala. As cotas do Azure são limites de crédito, não garantias de capacidade. Independentemente da sua quota, só lhe são cobrados os núcleos que utilizar.
Rede virtual – Uma rede virtual do Azure não é necessária para usar as instâncias de computação intensiva. No entanto, para muitas implantações, você precisa de pelo menos uma rede virtual do Azure baseada em nuvem ou uma conexão site a site se precisar acessar recursos locais. Quando necessário, crie uma nova rede virtual para implantar as instâncias. Não há suporte para a adição de VMs de computação intensiva a uma rede virtual em um grupo de afinidade.
Redimensionamento – Devido ao seu hardware especializado, você só pode redimensionar instâncias de computação intensiva dentro da mesma família de tamanhos (série H ou série N). Por exemplo, você só pode redimensionar uma VM da série H de um tamanho da série H para outro. Considerações adicionais sobre o suporte ao driver InfiniBand e discos NVMe podem precisar ser consideradas para determinadas VMs.
Próximos passos
- Saiba mais sobre como configurar suas VMs, habilitar o InfiniBand, configurar o MPI e otimizar aplicativos HPC para o Azure em Cargas de trabalho HPC.
- Analise a visão geral da série HBv3 e a visão geral da série HC.
- Leia sobre os anúncios mais recentes, exemplos de carga de trabalho HPC e resultados de desempenho nos Blogs da Comunidade de Tecnologia de Computação do Azure.
- Para obter uma exibição de arquitetura de nível superior da execução de cargas de trabalho HPC, consulte Computação de alto desempenho (HPC) no Azure.