Partizionamento GPU
Si applica a: Locale di Azure, versioni 23H2 e 22H2
Il partizionamento GPU consente di condividere un dispositivo GPU fisico con più macchine virtuali. Con il partizionamento o la virtualizzazione della GPU, ogni macchina virtuale ottiene una frazione dedicata della GPU anziché l'intera GPU.
La funzionalità di partizionamento GPU usa l'interfaccia SR-IOV (Single Root IO Virtualization), che fornisce un limite di sicurezza supportato da hardware con prestazioni prevedibili per ogni macchina virtuale. Ogni macchina virtuale può accedere solo alle risorse GPU a essa dedicate e il partizionamento hardware sicuro impedisce l'accesso non autorizzato da altre macchine virtuali.
Windows Server introduce la migrazione in tempo reale con il partizionamento GPU. Per usare la migrazione in tempo reale del partizionamento GPU, è necessario soddisfare requisiti specifici. Oltre alle procedure consigliate per la migrazione in tempo reale, gli host cluster devono disporre di processori con supporto per il tracciamento dei bit DMA dell'unità di gestione della memoria di input/output (IOMMU). Ad esempio, i processori che supportano Intel VT-D o AMD-Vi. Se si usa Windows Server e la migrazione in tempo reale senza processori abilitati per IOMMU, le VM vengono riavviate automaticamente in posizioni in cui sono disponibili le risorse GPU.
Il partizionamento della GPU è progettato per i server autonomi. È possibile eseguire la migrazione in tempo reale di macchine virtuali tra nodi autonomi per tempi di inattività pianificati; tuttavia, i clienti che richiedono il clustering per tempi di inattività non pianificati devono usare Windows Server 2025 Datacenter.
Quando usare il partizionamento GPU
Alcuni carichi di lavoro, ad esempio l'infrastruttura VDI (Virtual Desktop Infrastructure), l'intelligenza artificiale e l'inferenza con Machine Learning (ML) richiedono l'accelerazione GPU e il partizionamento GPU può contribuire a ridurre il costo totale di proprietà per l'infrastruttura nel suo complesso.
Ad esempio:
Applicazioni VDI: i clienti su perimetro distribuito eseguono app di produttività di base, ad esempio Microsoft Office e carichi di lavoro di visualizzazione con uso intensivo di grafica negli ambienti VDI, che richiedono accelerazione GPU. Per questi carichi di lavoro, è possibile ottenere l'accelerazione GPU necessaria tramite il partizionamento DDA o GPU. Con il partizionamento GPU è possibile creare più partizioni e assegnare ogni partizione a una macchina virtuale che ospita un ambiente VDI. Il partizionamento GPU consente di ottenere la densità desiderata e di ridimensionare il numero di utenti supportati in base a un ordine di grandezza.
Inferenza con Machine Learning: i clienti nei punti vendita al dettaglio e negli stabilimenti di produzione possono eseguire l'inferenza a livello perimetrale, che richiede il supporto GPU per i server. Usando la GPU nei server, è possibile eseguire modelli di Machine Learning per ottenere risultati rapidi su cui è possibile agire prima che i dati vengano inviati al cloud. Il set di dati completo può essere facoltativamente trasferito per continuare a ripetere il training dei modelli di Machine Learning e migliorarli. Insieme a DDA in cui si assegna un'intera GPU fisica a una macchina virtuale, il partizionamento GPU consente di eseguire più applicazioni di inferenza in parallelo sulla stessa GPU, ma in partizioni fisiche separate, usando la GPU al massimo.
Sistemi operativi guest supportati
Il partizionamento della GPU in Windows Server 2025 e versioni successive supporta i seguenti sistemi operativi guest:
Il partizionamento GPU in Locale di Azure supporta questi sistemi operativi guest:
- Windows 10 o versione successiva
- Windows 10 Enterprise multisessione o versioni successive
- Windows Server 2019 o versione successiva
- Linux Ubuntu 18.04 LTS, Linux Ubuntu 20.04 LTS, Linux Ubuntu 22.04 LTS
GPU supportate
Le GPU seguenti supportano il partizionamento GPU:
- NVIDIA A2
- NVIDIA A10
- NVIDIA A16
- NVIDIA A40
- NVIDIA L2
- NVIDIA L4
- NVIDIA L40
- NVIDIA L40S
Nota
Il driver NVIDIA attualmente non supporta il partizionamento della GPU per la migrazione in tempo reale.
È consigliabile collaborare con i partner OEM (Original Equipment Manufacturer) e i fornitori di hardware indipendenti di GPU per pianificare, ordinare e configurare i sistemi per i carichi di lavoro desiderati con le configurazioni appropriate e il software necessario. Tuttavia, supportiamo altre GPU se si vuole usare l'accelerazione GPU tramite DDA (Discrete Device Assignment). Contattare i partner OEM e i fornitori di hardware indipendenti per ottenere un elenco delle GPU che supportano DDA. Per altre informazioni sull'uso dell'accelerazione GPU tramite DDA, vedere Discrete Device Assignment (DDA).
Per ottenere prestazioni ottimali, è consigliabile creare una configurazione omogenea per le GPU in tutti i server del cluster. Una configurazione omogenea consiste nell'installare GPU di marca e modello identici e nel configurare lo stesso numero di partizioni nelle GPU in tutti i server del cluster. Ad esempio, in un cluster di due server con una o più GPU installate, tutte le GPU devono essere di marca, modello e dimensioni identici. Anche il numero di partizioni in ogni GPU deve corrispondere.
Limiti
Quando si usa la funzionalità di partizionamento GPU, considerare le limitazioni seguenti:
Il partizionamento GPU non è supportato se la configurazione non è omogenea. Di seguito sono riportati alcuni esempi di configurazioni non supportate:
Combinazione di GPU di fornitori diversi nello stesso cluster.
Uso di modelli di GPU diversi di famiglie di prodotti diverse dello stesso fornitore nello stesso cluster.
Non è possibile assegnare una GPU fisica come GPU partizionabile o DDA (Discrete Device Assignment). È possibile assegnarla come DDA o come GPU partizionabile, ma non come tutte e due.
È possibile assegnare una sola partizione GPU a una macchina virtuale.
Le partizioni vengono assegnate automaticamente alle VM. Non è possibile scegliere una partizione specifica per una macchina virtuale specifica.
- Attualmente, il partizionamento GPU in Locale di Azure non supporta la migrazione in tempo reale delle macchine virtuali. Tuttavia, le macchine virtuali possono essere riavviate automaticamente e collocate in posizioni in cui le risorse GPU sono disponibili in caso di errore.
È possibile partizionare la GPU usando Windows Admin Center o PowerShell. È consigliabile usare Windows Admin Center per configurare e assegnare partizioni GPU. Windows Admin Center convalida automaticamente una configurazione omogenea delle GPU in tutti i server del cluster. Fornisce avvisi ed errori appropriati per eseguire le azioni correttive necessarie.
Se si usa PowerShell per eseguire il provisioning del partizionamento GPU, è necessario eseguire i passaggi di provisioning in ogni server del cluster. È necessario assicurarsi manualmente che la configurazione omogenea venga mantenuta per le GPU in tutti i server del cluster.
- Quando si esegue la migrazione in tempo reale di una macchina virtuale con una partizione GPU assegnata, la migrazione in tempo reale di Hyper-V passa automaticamente all'uso di TCP/IP con compressione. La migrazione di una macchina virtuale ha come effetto potenziale l'aumento dell'uso della CPU di un host. Inoltre, le migrazioni in tempo reale potrebbero richiedere più tempo rispetto alle macchine virtuali senza partizioni GPU collegate.
Contenuto correlato
Per altre informazioni sull'uso di GPU con le macchine virtuali e il partizionamento GPU, vedere:
Per altre informazioni sull'uso di GPU con le macchine virtuali e il partizionamento GPU, vedere: