A máquina virtual (VM) da série ND H100 v5 é uma nova adição emblemática à família de GPUs do Azure. Esta série foi projetada para treinamento de Deep Learning high-end e cargas de trabalho de IA generativa e HPC fortemente acopladas.
A série ND H100 v5 começa com uma única VM e oito GPUs NVIDIA H100 Tensor Core. As implantações baseadas em ND H100 v5 podem ser dimensionadas para milhares de GPUs com 3,2 Tbps de largura de banda de interconexão por VM. Cada GPU dentro da VM é fornecida com sua própria conexão dedicada e independente de topologia de 400 Gb/s NVIDIA Quantum-2 CX7 InfiniBand. Essas conexões são configuradas automaticamente entre VMs que ocupam o mesmo conjunto de escala de máquina virtual e suportam GPU Direct RDMA.
Cada GPU possui conectividade NVLINK 4.0 para comunicação dentro da VM, e a instância tem 96 núcleos físicos de processador escalável Intel Xeon Xeon de quarta geração.
Essas instâncias fornecem excelente desempenho para muitas ferramentas de IA, ML e análise que suportam aceleração de GPU 'pronta para uso', como TensorFlow, Pytorch, Caffe, RAPIDS e outras estruturas. Além disso, a interconexão InfiniBand escalável suporta um grande conjunto de ferramentas de IA e HPC existentes que são construídas nas bibliotecas de comunicação NCCL da NVIDIA para clustering contínuo de GPUs.
Especificações do anfitrião
Parte
Quantidade Unidades de contagem
Especificações ID de SKU, Unidades de Desempenho, etc.
Para começar a usar as VMs ND H100 v5, consulte Configuração e otimização da carga de trabalho HPC para obter as etapas que incluem a configuração do driver e da rede.
Devido ao aumento da pegada de E/S da memória GPU, o ND H100 v5 requer o uso de VMs de 2ª geração e imagens de mercado.
O Azure suporta Ubuntu 20.04/22.04, RHEL 7.9/8.7/9.3, AlmaLinux 8.8/9.2 e SLES 15 para VMs ND H100 v5. Atualmente, as imagens VM Ubuntu-HPC 20.4/22.04 e AlmaLinux-HPC 8.6/8.7 são suportadas.
Há ofertas de imagens de VM Linux otimizadas e pré-configuradas para cargas de trabalho HPC/AI com uma variedade de ferramentas e bibliotecas de HPC instaladas, e, portanto, são altamente recomendadas.
1 A velocidade do disco temporário geralmente difere entre as operações RR (leitura aleatória) e RW (gravação aleatória). As operações RR são normalmente mais rápidas do que as operações RW. A velocidade RW é geralmente mais lenta do que a velocidade RR em séries, onde apenas o valor da velocidade RR é listado.
A capacidade de armazenamento é apresentada em unidades de GiB ou 1024^3 bytes. Ao comparar discos medidos em GB (1000^3 bytes) com discos medidos em GiB (1024^3), lembre-se de que os números de capacidade fornecidos em GiB podem parecer menores. Por exemplo, 1023 GiB = 1098,4 GB.
O débito do disco é medido em operações de entrada/saída por segundo (IOPS) e MBps, em que MBps = 10^6 bytes/seg.
Para saber como obter o melhor desempenho de armazenamento para suas VMs, consulte Desempenho de máquina virtual e disco.
Informações de armazenamento remoto (não armazenado em cache) para cada tamanho
A capacidade de armazenamento é apresentada em unidades de GiB ou 1024^3 bytes. Ao comparar discos medidos em GB (1000^3 bytes) com discos medidos em GiB (1024^3), lembre-se de que os números de capacidade fornecidos em GiB podem parecer menores. Por exemplo, 1023 GiB = 1098,4 GB.
O débito do disco é medido em operações de entrada/saída por segundo (IOPS) e MBps, em que MBps = 10^6 bytes/seg.
Os discos de dados podem operar nos modos em cache ou não colocado em cache. Para uma operação do disco de dados em cache, o modo de cache do anfitrião está definido como ReadOnly ou ReadWrite. Para uma operação do disco de dados não colocada em cache, o modo de cache do anfitrião está definido como None.
Para saber como obter o melhor desempenho de armazenamento para suas VMs, consulte Desempenho de máquina virtual e disco.
Informações da interface de rede para cada tamanho
A largura de banda de rede esperada é a largura de banda agregada máxima alocada por tipo de VM em todas as NICs, para todos os destinos. Para obter mais informações, consulte Largura de banda da rede da máquina virtual
Os limites máximos não são garantidos. Os limites oferecem orientação para selecionar o tipo de VM certo para o aplicativo pretendido. O desempenho real da rede dependerá de vários fatores, incluindo congestionamento da rede, cargas de aplicativos e configurações de rede. Para obter informações sobre como otimizar a taxa de transferência de rede, consulte Otimizar a taxa de transferência de rede para máquinas virtuais do Azure.
Para alcançar o desempenho de rede esperado no Linux ou Windows, talvez seja necessário selecionar uma versão específica ou otimizar sua VM. Para obter mais informações, consulte Teste de largura de banda/taxa de transferência (NTTTCP).
Informações do acelerador (GPUs, FPGAs, etc.) para cada tamanho