Przewodnik migracji obciążeń obliczeniowych procesora GPU na platformie Azure
Ponieważ bardziej zaawansowane procesory GPU stają się dostępne na platformie handlowej i w centrach danych platformy Microsoft Azure, zalecamy ponowne ocenianie wydajności obciążeń i rozważanie migracji do nowszych procesorów GPU.
Z tego samego powodu, jak również w celu utrzymania wysokiej jakości i niezawodnej oferty usług platforma Azure okresowo wycofuje sprzęt, który obsługuje starsze rozmiary maszyn wirtualnych. Pierwszą grupą produktów gpu, które mają zostać wycofane na platformie Azure, są oryginalne maszyny wirtualne NC, NC v2 i ND serii, obsługiwane odpowiednio przez NVIDIA Tesla K80, P100 i P40 akceleratory procesora GPU centrum danych. Produkty te zostaną wycofane 31 sierpnia 2023 r., a najstarsze maszyny wirtualne z tej serii zostaną uruchomione w 2016 roku.
Od tego czasu procesory GPU poczyniły niesamowite postępy wraz z całą branżą uczenia głębokiego i HPC, zwykle przekraczając podwojenie wydajności między pokoleniami. Od czasu premiery procesorów GPU NVIDIA K80, P40 i P100 platforma Azure dostarczyła wiele nowszych generacji i kategorii produktów maszyn wirtualnych wyposażonych w przyspieszone procesory GPU i sztuczną inteligencję, w oparciu o procesory GPU T4, V100 i A100 GPU, a także wyróżniane przez opcjonalne funkcje, takie jak sieci szkieletowe połączenia oparte na technologii InfiniBand. Są to wszystkie opcje, które zachęcamy klientów do eksplorowania jako ścieżek migracji.
W większości przypadków dramatyczny wzrost wydajności oferowany przez nowsze generacje procesorów GPU obniża całkowity koszt posiadania przez zmniejszenie czasu trwania zadania, w przypadku zadań z możliwością zwiększania szybkości lub zmniejszenie ilości ogólnych maszyn wirtualnych z obsługą procesora GPU wymaganych do pokrycia stałego zapotrzebowania na zasoby obliczeniowe, mimo że koszty na godzinę procesora GPU mogą się różnić. Oprócz tych korzyści klienci mogą poprawić czas rozwiązania za pomocą maszyn wirtualnych o wyższej wydajności oraz poprawić kondycję i obsługę swojego rozwiązania, przyjmując nowsze oprogramowanie, środowisko uruchomieniowe CUDA i wersje sterowników.
Migracja a optymalizacja
Platforma Azure rozpoznaje, że klienci mają wiele wymagań, które mogą dyktować wybór określonego produktu maszyny wirtualnej z procesorem GPU, w tym zagadnienia dotyczące architektury procesora GPU, połączenia, TCO, czas do rozwiązania i dostępność regionalną na podstawie wymagań dotyczących lokalizacji zgodności lub opóźnień — a niektóre z nich nawet zmieniają się w czasie.
Jednocześnie przyspieszanie procesora GPU to nowy i szybko ewoluujący obszar.
W związku z tym nie ma prawdziwych wskazówek dotyczących jednego rozmiaru odpowiedniego dla tego obszaru produktu, a migracja jest idealnym czasem, aby ponownie ocenić potencjalnie dramatyczne zmiany w obciążeniu, takie jak przejście z modelu wdrażania klastrowanego na jedną dużą maszynę wirtualną z procesorem GPU 8-GPU lub odwrotnie, wykorzystując ograniczone typy danych precyzji, przyjmując funkcje takie jak procesor GPU z wieloma wystąpieniami i wiele innych.
Te rodzaje zagadnień — jeśli kontekst już dramatycznego wzrostu wydajności procesora GPU na generację wzrasta, gdzie funkcja taka jak dodanie rdzeni TensorCore może zwiększyć wydajność o kolejność wielkości, są bardzo specyficzne dla obciążenia.
Połączenie migracji z architekturą re-aplikacji może przynieść ogromną wartość i poprawę kosztów i czasu rozwiązania.
Jednak tego rodzaju ulepszenia wykraczają poza zakres tego dokumentu, który ma na celu skupienie się na bezpośrednich klasach równoważności dla uogólnionych obciążeń, które mogą być obecnie uruchamiane przez klientów, w celu zidentyfikowania najbardziej podobnych opcji maszyn wirtualnych zarówno w cenie , jak i wydajności procesora GPU dla istniejących rodzin maszyn wirtualnych przechodzących emeryturę.
W związku z tym w tym dokumencie przyjęto założenie, że użytkownik może nie mieć żadnych szczegółowych informacji ani kontroli nad właściwościami specyficznymi dla obciążenia, takimi jak liczba wymaganych wystąpień maszyn wirtualnych, procesorów GPU, połączeń międzyoperacyjnych i nie tylko.
Zalecane ścieżki uaktualniania
Maszyny wirtualne serii NC z procesorami GPU NVIDIA K80
Maszyny wirtualne z serii NC (v1) są najstarszym typem maszyn wirtualnych z przyspieszonym procesorem GPU platformy Azure, obsługiwanym przez od 1 do 4 akceleratorów procesora GPU nvidia Tesla K80 w połączeniu z procesorami Intel Xeon E5-2690 v3 (Haswell). Gdy flagowy typ maszyny wirtualnej dla wymagających aplikacji sztucznej inteligencji, uczenia maszynowego i HPC pozostał popularnym wyborem pod koniec cyklu życia produktu (szczególnie za pośrednictwem cen promocyjnych serii NC) dla użytkowników, którzy cenili bardzo niski koszt bezwzględny na godzinę w przypadku procesorów GPU z wyższą przepływnością na dolara.
Obecnie, biorąc pod uwagę stosunkowo niską wydajność obliczeniową starzejącej się platformy procesora GPU NVIDIA K80, w porównaniu z serią maszyn wirtualnych z nowszymi procesorami GPU, popularnym przypadkiem użycia dla serii NC jest wnioskowanie w czasie rzeczywistym i obciążenia analityczne, gdzie przyspieszona maszyna wirtualna musi być dostępna w stanie stabilnym, aby obsługiwać żądania od aplikacji w miarę ich nadejścia. W takich przypadkach rozmiar woluminu lub partii żądań może być niewystarczający, aby korzystać z bardziej wydajnych procesorów GPU. Maszyny wirtualne NC są również popularne dla deweloperów i studentów uczących się, opracowujących i eksperymentujących z przyspieszaniem procesora GPU, którzy potrzebują niedrogiego celu wdrożenia CUDA opartego na chmurze, na którym iteracja nie musi działać na poziomach produkcyjnych.
Ogólnie rzecz biorąc, klienci z serii NC powinni rozważyć przejście bezpośrednio z rozmiarów NC T4 v3 , nowej platformy przyspieszonej przez procesor GPU platformy Azure dla lekkich obciążeń zasilanych przez procesory GPU NVIDIA Tesla T4.
Bieżący rozmiar maszyny wirtualnej | Rozmiar docelowej maszyny wirtualnej | Różnica w specyfikacji |
---|---|---|
Standard_NC6 Standard_NC6_Promo |
Standard_NC4as_T4_v3 lub Standard_NC8as_T4 |
Procesor: Intel Haswell vs AMD Rome Liczba procesorów GPU: 1 (taka sama) Generacja procesora GPU: NVIDIA Keppler vs Turing (+2 generacje, ~2x FP32 DYSKI) Pamięć procesora GPU (GiB na procesor GPU): 16 (+4) Procesor wirtualny: 4 (-2) lub 8 (+2) GiB pamięci: 16 (-40) lub 56 (ten sam) Magazyn tymczasowy (SSD) GiB: 180 (-160) lub 360 (+20) Maksymalna liczba dysków danych: 8 (-4) lub 16 (+4) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+) |
Standardowa_NC12 Standard_NC12_Promo |
Standard_NC16as_T4_v3 | Procesor: Intel Haswell vs AMD Rome Liczba procesorów GPU: 1 (-1) Generacja procesora GPU: NVIDIA Keppler vs Turing (+2 generacje, ~2x FP32 DYSKI) Pamięć procesora GPU (GiB na procesor GPU): 16 (+4) procesor wirtualny: 16 (+4) GiB pamięci: 110 (-2) GiB magazynu tymczasowego (SSD): 360 (-320) Maksymalna liczba dysków danych: 48 (+16) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+) |
Standardowa_NC24 Standard_NC24_Promo |
Standard_NC64as_T4_v3* | Procesor: Intel Haswell vs AMD Rome Liczba procesorów GPU: 4 (taka sama) Generacja procesora GPU: NVIDIA Keppler vs Turing (+2 generacje, ~2x FP32 DYSKI) Pamięć procesora GPU (GiB na procesor GPU): 16 (+4) Procesor wirtualny: 64 (+40) GiB pamięci: 440 (+216) GiB magazynu tymczasowego (SSD): 2880 (+1440) Maksymalna liczba dysków danych: 32 (-32) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+) |
Standard_NC24r Standard_NC24r_Promo |
Standard_NC64as_T4_v3* | Procesor: Intel Haswell vs AMD Rome Liczba procesorów GPU: 4 (taka sama) Generacja procesora GPU: NVIDIA Keppler vs Turing (+2 generacje, ~2x FP32 DYSKI) Pamięć procesora GPU (GiB na procesor GPU): 16 (+4) Procesor wirtualny: 64 (+40) GiB pamięci: 440 (+216) GiB magazynu tymczasowego (SSD): 2880 (+1440) Maksymalna liczba dysków danych: 32 (-32) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+) Interconnect InfiniBand: Nie |
Maszyny wirtualne z serii NC w wersji 2 wyposażone w procesory GPU NVIDIA Tesla P100
Maszyny wirtualne z serii NC w wersji 2 są flagową platformą przeznaczoną dla obciążeń sztucznej inteligencji i uczenia głębokiego. Zapewniali doskonałą wydajność trenowania uczenia głębokiego, z wydajnością na procesor GPU około 2x oryginalnej serii NC i są obsługiwane przez procesory GPU NVIDIA Tesla P100 i Intel Xeon E5-2690 v4 (Broadwell). Podobnie jak nc i ND -Series, NC v2-Series oferuje konfigurację z pomocniczym małymi opóźnieniami, siecią o wysokiej przepływności za pośrednictwem RDMA i InfiniBand łączności, dzięki czemu można uruchamiać zadania trenowania na dużą skalę obejmujące wiele procesorów GPU.
Ogólnie rzecz biorąc, klienci z serii NCv2 powinni rozważyć przejście bezpośrednio do rozmiarów NC A100 v4 , nowej platformy przyspieszonej przez procesor GPU platformy Azure obsługiwanej przez procesory GPU NVIDIA Ampere A100 PCIe.
Bieżący rozmiar maszyny wirtualnej | Rozmiar docelowej maszyny wirtualnej | Różnica w specyfikacji |
---|---|---|
Standard_NC6s_v2 | Standard_NC24ads_A100_v4 | CPU: Intel Broadwell vs AMD Milan Liczba procesorów GPU: 1 (taka sama) Generacja procesora GPU: NVIDIA Pascal a Ampere (+2 generacja) Pamięć procesora GPU (GiB na procesor GPU): 80 (+64) Procesor wirtualny: 24 (+18) GiB pamięci: 220 (+108) GiB magazynu tymczasowego (SSD): 1123 (+387) Maksymalna liczba dysków danych: 12 (te same) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+) |
Standard_NC12s_v2 | Standard_NC48ads_A100_v4 | CPU: Intel Broadwell vs AMD Milan Liczba procesorów GPU: 2 (takie same) Generacja procesora GPU: NVIDIA Pascal a Ampere (+2 generacje) Pamięć procesora GPU (GiB na procesor GPU): 80 (+64) Procesor wirtualny: 48 (+36) GiB pamięci: 440 (+216) GiB magazynu tymczasowego (SSD): 2246 (+772) Maksymalna liczba dysków danych: 24 (te same) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+) |
Standard_NC24s_v2 | Standard_NC96ads_A100_v4 | CPU: Intel Broadwell vs AMD Milan Liczba procesorów GPU: 4 (taka sama) Generacja procesora GPU: NVIDIA Pascal a Ampere (+2 generacje) Pamięć procesora GPU (GiB na procesor GPU): 80 (+64) procesor wirtualny: 96 (+72) GiB pamięci: 880 (+432) GiB magazynu tymczasowego (SSD): 4492 (+1544) Maksymalna liczba dysków danych: 32 (te same) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+) |
Standard_NC24rs_v2 | Standard_NC96ads_A100_v4 | CPU: Intel Broadwell vs AMD Milan Liczba procesorów GPU: 4 (takie same) Generacja procesora GPU: NVIDIA Pascal a Ampere (+2 generacje) Pamięć procesora GPU (GiB na procesor GPU): 80 (+64) procesor wirtualny: 96 (+72) GiB pamięci: 880 (+432) GiB magazynu tymczasowego (SSD): 4492 (+1544) Maksymalna liczba dysków danych: 32 (te same) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+) Połączenie infiniBand: nie (-) |
Maszyny wirtualne z serii ND z procesorami GPU NVIDIA Tesla P40
Maszyny wirtualne serii ND są platformą w połowie, pierwotnie zaprojektowaną dla obciążeń sztucznej inteligencji i uczenia głębokiego. Zapewniali doskonałą wydajność wnioskowania wsadowego dzięki ulepszonym operacjom zmiennoprzecinkowych o pojedynczej precyzji względem swoich poprzedników i są obsługiwane przez procesory GPU NVIDIA Tesla P40 i Intel Xeon E5-2690 v4 (Broadwell). Podobnie jak nc i NC v2-Series, seria ND oferuje konfigurację z dodatkowymi małymi opóźnieniami, siecią o wysokiej przepływności za pośrednictwem RDMA i InfiniBand łączności, dzięki czemu można uruchamiać zadania trenowania na dużą skalę obejmujące wiele procesorów GPU.
Bieżący rozmiar maszyny wirtualnej | Rozmiar docelowej maszyny wirtualnej | Różnica w specyfikacji |
---|---|---|
Standard_ND6 | Standard_NC4as_T4_v3 lub Standard_NC8as_T4_v3 |
CPU: Intel Broadwell vs AMD Rome Liczba procesorów GPU: 1 (taka sama) Generacja procesora GPU: NVIDIA Pascal a Turing (+1 generacja) Pamięć procesora GPU (GiB na procesor GPU): 16 (-8) Procesor wirtualny: 4 (-2) lub 8 (+2) GiB pamięci: 16 (-40) lub 56 (-56) GiB magazynu tymczasowego (SSD): 180 (-552) lub 360 (-372) Maksymalna liczba dysków danych: 8 (-4) lub 16 (+4) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+) |
Standard_ND12 | Standard_NC16as_T4_v3 | CPU: Intel Broadwell vs AMD Rome Liczba procesorów GPU: 1 (-1) Generacja procesora GPU: NVIDIA Pascal a Turing (+1 generacje) Pamięć procesora GPU (GiB na procesor GPU): 16 (-8) procesor wirtualny: 16 (+4) GiB pamięci: 110 (-114) GiB magazynu tymczasowego (SSD): 360 (-1114) Maksymalna liczba dysków danych: 48 (+16) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+) |
Standard_ND24 | Standard_NC64as_T4_v3* | CPU: Intel Broadwell vs AMD Rome Liczba procesorów GPU: 4 (taka sama) Generacja procesora GPU: NVIDIA Pascal a Turing (+1 generacje) Pamięć procesora GPU (GiB na procesor GPU): 16 (-8) Procesor wirtualny: 64 (+40) GiB pamięci: 440 (to samo) GiB magazynu tymczasowego (SSD): 2880 (to samo) Maksymalna liczba dysków danych: 32 (te same) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+) |
Standard_ND24r | Standard_ND96amsr_A100_v4 | CPU: Intel Broadwell vs AMD Rome Liczba procesorów GPU: 8 (+4) Generacja procesora GPU: NVIDIA Pascal a Ampere (+2 generacja) Pamięć procesora GPU (GiB na procesor GPU): 80 (+56) procesor wirtualny: 96 (+72) GiB pamięci: 1900 (+1452) GiB magazynu tymczasowego (SSD): 6400 (+3452) Maksymalna liczba dysków danych: 32 (te same) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+) Interconnect InfiniBand: Tak (to samo) |
Kroki migracji
Zmiany ogólne
Wybierz serię i rozmiar migracji. Skorzystaj z kalkulatora cen, aby uzyskać szczegółowe informacje.
Uzyskiwanie limitu przydziału dla docelowej serii maszyn wirtualnych
Zmień rozmiar bieżącej maszyny wirtualnej serii N* na rozmiar docelowy. Może to być również dobry moment na zaktualizowanie systemu operacyjnego używanego przez obraz maszyny wirtualnej lub wdrożenie jednego z obrazów HPC ze wstępnie zainstalowanymi sterownikami jako punktem wyjścia.
Ważne
Obraz maszyny wirtualnej mógł zostać utworzony przy użyciu starszej wersji środowiska uruchomieniowego CUDA, sterownika NVIDIA i (jeśli dotyczy tylko rozmiarów z włączoną funkcją RDMA) sterowników Mellanox OFED niż wymaga nowa seria maszyn wirtualnych procesora GPU, która może zostać zaktualizowana, postępując zgodnie z instrukcjami w dokumentacji platformy Azure.
Zmiany powodujące niezgodność
Wybieranie rozmiaru docelowego migracji
Po ocenie bieżącego użycia zdecyduj, jakiego typu maszynę wirtualną z procesorem GPU potrzebujesz. W zależności od wymagań dotyczących obciążenia masz kilka różnych opcji.
Uwaga
Najlepszym rozwiązaniem jest wybranie rozmiaru maszyny wirtualnej na podstawie kosztów i wydajności. Zalecenia przedstawione w tym przewodniku są oparte na ogólnym, jednorazowym porównaniu metryk wydajności i najbliższego dopasowania w innej serii maszyn wirtualnych. Przed podjęciem decyzji o odpowiednim rozmiarze uzyskaj porównanie kosztów przy użyciu kalkulatora cen platformy Azure.
Ważne
Wszystkie starsze rozmiary NC, NC v2 i ND-Series są dostępne w wielu rozmiarach procesorów GPU, w tym w rozmiarach 4 procesorów GPU z i bez połączenia InfiniBand w celu skalowania w poziomie, ściśle powiązanych obciążeń, które wymagają większej mocy obliczeniowej niż pojedyncza maszyna wirtualna z procesorem GPU 4, lub jeden procesor GPU K80, P40 lub P100 może zapewnić odpowiednio. Mimo że powyższe zalecenia oferują prostą ścieżkę do przodu, użytkownicy tych rozmiarów powinni rozważyć osiągnięcie celów wydajności dzięki bardziej wydajnej serii maszyn wirtualnych opartych na procesorze GPU V100 firmy NVIDIA V100, takich jak seria NC v3 i seria ND v2, które zwykle umożliwiają taki sam poziom wydajności obciążenia przy niższych kosztach i z lepszą możliwością zarządzania, zapewniając znacznie większą wydajność procesora GPU i maszyny wirtualnej przed wymaganą konfiguracją wieloprocesorową i wielowężową, odpowiednio.
Uzyskiwanie limitu przydziału dla docelowej rodziny maszyn wirtualnych
Postępuj zgodnie z przewodnikiem, aby zażądać zwiększenia limitu przydziału procesorów wirtualnych według rodziny maszyn wirtualnych. Wybierz docelowy rozmiar maszyny wirtualnej wybrany do migracji.
Zmienianie rozmiaru bieżącej maszyny wirtualnej
Możesz zmienić rozmiar maszyny wirtualnej.
Następne kroki
Aby uzyskać pełną listę rozmiarów maszyn wirtualnych z obsługą procesora GPU, zobacz GPU — przyspieszone obliczenia — omówienie