Partizionamento GPU

Articolo
12/21/2024
Si applica a:

✅ Windows Server 2025, ✅ Azure Local, versions 23H2 and 22H2

Si applica a: Locale di Azure, versioni 23H2 e 22H2

Il partizionamento GPU consente di condividere un dispositivo GPU fisico con più macchine virtuali. Con il partizionamento o la virtualizzazione della GPU, ogni macchina virtuale ottiene una frazione dedicata della GPU anziché l'intera GPU.

La funzionalità di partizionamento GPU usa l'interfaccia SR-IOV (Single Root IO Virtualization), che fornisce un limite di sicurezza supportato da hardware con prestazioni prevedibili per ogni macchina virtuale. Ogni macchina virtuale può accedere solo alle risorse GPU a essa dedicate e il partizionamento hardware sicuro impedisce l'accesso non autorizzato da altre macchine virtuali.

Windows Server introduce la migrazione in tempo reale con il partizionamento GPU. Per usare la migrazione in tempo reale del partizionamento GPU, è necessario soddisfare requisiti specifici. Oltre alle procedure consigliate per la migrazione in tempo reale, gli host cluster devono disporre di processori con supporto per il tracciamento dei bit DMA dell'unità di gestione della memoria di input/output (IOMMU). Ad esempio, i processori che supportano Intel VT-D o AMD-Vi. Se si usa Windows Server e la migrazione in tempo reale senza processori abilitati per IOMMU, le VM vengono riavviate automaticamente in posizioni in cui sono disponibili le risorse GPU.

Il partizionamento della GPU è progettato per i server autonomi. È possibile eseguire la migrazione in tempo reale di macchine virtuali tra nodi autonomi per tempi di inattività pianificati; tuttavia, i clienti che richiedono il clustering per tempi di inattività non pianificati devono usare Windows Server 2025 Datacenter.

Quando usare il partizionamento GPU

Alcuni carichi di lavoro, ad esempio l'infrastruttura VDI (Virtual Desktop Infrastructure), l'intelligenza artificiale e l'inferenza con Machine Learning (ML) richiedono l'accelerazione GPU e il partizionamento GPU può contribuire a ridurre il costo totale di proprietà per l'infrastruttura nel suo complesso.

Ad esempio:

Applicazioni VDI: i clienti su perimetro distribuito eseguono app di produttività di base, ad esempio Microsoft Office e carichi di lavoro di visualizzazione con uso intensivo di grafica negli ambienti VDI, che richiedono accelerazione GPU. Per questi carichi di lavoro, è possibile ottenere l'accelerazione GPU necessaria tramite il partizionamento DDA o GPU. Con il partizionamento GPU è possibile creare più partizioni e assegnare ogni partizione a una macchina virtuale che ospita un ambiente VDI. Il partizionamento GPU consente di ottenere la densità desiderata e di ridimensionare il numero di utenti supportati in base a un ordine di grandezza.
Inferenza con Machine Learning: i clienti nei punti vendita al dettaglio e negli stabilimenti di produzione possono eseguire l'inferenza a livello perimetrale, che richiede il supporto GPU per i server. Usando la GPU nei server, è possibile eseguire modelli di Machine Learning per ottenere risultati rapidi su cui è possibile agire prima che i dati vengano inviati al cloud. Il set di dati completo può essere facoltativamente trasferito per continuare a ripetere il training dei modelli di Machine Learning e migliorarli. Insieme a DDA in cui si assegna un'intera GPU fisica a una macchina virtuale, il partizionamento GPU consente di eseguire più applicazioni di inferenza in parallelo sulla stessa GPU, ma in partizioni fisiche separate, usando la GPU al massimo.

Sistemi operativi guest supportati

Il partizionamento della GPU in Windows Server 2025 e versioni successive supporta i seguenti sistemi operativi guest:

Il partizionamento GPU in Locale di Azure supporta questi sistemi operativi guest:

Windows 10 o versione successiva
Windows 10 Enterprise multisessione o versioni successive
Windows Server 2019 o versione successiva
Linux Ubuntu 18.04 LTS, Linux Ubuntu 20.04 LTS, Linux Ubuntu 22.04 LTS

GPU supportate

Le GPU seguenti supportano il partizionamento GPU:

NVIDIA A2
NVIDIA A10
NVIDIA A16
NVIDIA A40
NVIDIA L2
NVIDIA L4
NVIDIA L40
NVIDIA L40S

Nota

Il driver NVIDIA attualmente non supporta il partizionamento della GPU per la migrazione in tempo reale.

È consigliabile collaborare con i partner OEM (Original Equipment Manufacturer) e i fornitori di hardware indipendenti di GPU per pianificare, ordinare e configurare i sistemi per i carichi di lavoro desiderati con le configurazioni appropriate e il software necessario. Tuttavia, supportiamo altre GPU se si vuole usare l'accelerazione GPU tramite DDA (Discrete Device Assignment). Contattare i partner OEM e i fornitori di hardware indipendenti per ottenere un elenco delle GPU che supportano DDA. Per altre informazioni sull'uso dell'accelerazione GPU tramite DDA, vedere Discrete Device Assignment (DDA).

Per ottenere prestazioni ottimali, è consigliabile creare una configurazione omogenea per le GPU in tutti i server del cluster. Una configurazione omogenea consiste nell'installare GPU di marca e modello identici e nel configurare lo stesso numero di partizioni nelle GPU in tutti i server del cluster. Ad esempio, in un cluster di due server con una o più GPU installate, tutte le GPU devono essere di marca, modello e dimensioni identici. Anche il numero di partizioni in ogni GPU deve corrispondere.

Limiti

Quando si usa la funzionalità di partizionamento GPU, considerare le limitazioni seguenti:

Il partizionamento GPU non è supportato se la configurazione non è omogenea. Di seguito sono riportati alcuni esempi di configurazioni non supportate:
- Combinazione di GPU di fornitori diversi nello stesso cluster.
- Uso di modelli di GPU diversi di famiglie di prodotti diverse dello stesso fornitore nello stesso cluster.
Non è possibile assegnare una GPU fisica come GPU partizionabile o DDA (Discrete Device Assignment). È possibile assegnarla come DDA o come GPU partizionabile, ma non come tutte e due.
È possibile assegnare una sola partizione GPU a una macchina virtuale.
Le partizioni vengono assegnate automaticamente alle VM. Non è possibile scegliere una partizione specifica per una macchina virtuale specifica.

Attualmente, il partizionamento GPU in Locale di Azure non supporta la migrazione in tempo reale delle macchine virtuali. Tuttavia, le macchine virtuali possono essere riavviate automaticamente e collocate in posizioni in cui le risorse GPU sono disponibili in caso di errore.

È possibile partizionare la GPU usando Windows Admin Center o PowerShell. È consigliabile usare Windows Admin Center per configurare e assegnare partizioni GPU. Windows Admin Center convalida automaticamente una configurazione omogenea delle GPU in tutti i server del cluster. Fornisce avvisi ed errori appropriati per eseguire le azioni correttive necessarie.
Se si usa PowerShell per eseguire il provisioning del partizionamento GPU, è necessario eseguire i passaggi di provisioning in ogni server del cluster. È necessario assicurarsi manualmente che la configurazione omogenea venga mantenuta per le GPU in tutti i server del cluster.

Quando si esegue la migrazione in tempo reale di una macchina virtuale con una partizione GPU assegnata, la migrazione in tempo reale di Hyper-V passa automaticamente all'uso di TCP/IP con compressione. La migrazione di una macchina virtuale ha come effetto potenziale l'aumento dell'uso della CPU di un host. Inoltre, le migrazioni in tempo reale potrebbero richiedere più tempo rispetto alle macchine virtuali senza partizioni GPU collegate.

Per altre informazioni sull'uso di GPU con le macchine virtuali e il partizionamento GPU, vedere:

Condividi tramite

Partizionamento GPU

Quando usare il partizionamento GPU

Sistemi operativi guest supportati

GPU supportate

Limiti

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Partizionamento GPU

Quando usare il partizionamento GPU

Sistemi operativi guest supportati

GPU supportate

Limiti

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive