Partager via


Partitionnement du GPU

S’applique à : Azure Stack HCI, versions 23H2 et 22H2

Le partitionnement du GPU vous permet de partager un appareil GPU physique avec plusieurs machines virtuelles (VM). Avec le partitionnement du GPU ou la virtualisation du GPU, chaque machine virtuelle obtient une fraction dédiée du processeur graphique (GPU) au lieu de l’ensemble du GPU.

La fonctionnalité de partitionnement de GPU utilise l’interface SR-IOV (Single Root IO Virtualization, virtualisation d’E/S d’une racine unique), qui fournit une limite de sécurité basée sur le matériel avec des performances prévisibles pour chaque machine virtuelle. Chaque machine virtuelle peut accéder uniquement aux ressources GPU qui lui sont dédiées et le partitionnement sécurisé du matériel empêche tout accès non autorisé par d'autres machines virtuelles.

Windows Server introduit la migration en direct avec partitionnement du GPU. Il existe des conditions spécifiques pour utiliser la migration en direct du partitionnement GPU. Outre les meilleures pratiques recommandées en matière de migration en direct, les hôtes de votre cluster devront être dotés de processeurs capables de suivre les bits DMA de l'unité de gestion de la mémoire d'entrée/sortie (IOMMU). Par exemple, des processeurs prenant en charge Intel VT-D ou AMD-Vi. Si vous utilisez Windows Server et la migration en direct sans processeurs activés par IOMMU, les machines virtuelles sont automatiquement redémarrées là où des ressources GPU sont disponibles.

Le partitionnement du GPU est conçu pour les serveurs autonomes. Vous pouvez migrer en direct des machines virtuelles entre des nœuds autonomes en cas de temps d'arrêt planifié; toutefois, pour les clients qui ont besoin d'un cluster en cas de temps d'arrêt non planifié, vous devez utiliser Windows Server 2025 Datacenter.

Quand utiliser le partitionnement GPU?

Certaines charges de travail, notamment l'infrastructure de bureau virtuel (VDI), l'inférence intelligente artificielle (AI) et l'apprentissage automatique (ML) nécessitent une accélération GPU, le partitionnement GPU peut aider à réduire le coût total de possession de votre infrastructure globale.

Par exemple :

  • Applications VDI : Les clients de Distributed edge exécutent des applications de productivité de base, notamment Microsoft Office, et des charges de travail de visualisation à forte intensité graphique dans leurs environnements VDI, qui nécessitent une accélération GPU. Pour ces charges de travail, vous pouvez obtenir l'accélération GPU requise via DDA ou le partitionnement GPU. Avec le partitionnement GPU, vous pouvez créer plusieurs partitions et affecter chaque partition à une machine virtuelle hébergeant un environnement VDI. Le partitionnement GPU vous permet d'atteindre la densité souhaitée et d'augmenter le nombre d'utilisateurs pris en charge d'un ordre de grandeur.

  • Inférence avec la ML : Les clients des magasins de détail et des usines de fabrication peuvent exécuter l'inférence à la périphérie, ce qui nécessite la prise en charge du GPU pour leurs serveurs. En utilisant le GPU sur vos serveurs, vous pouvez exécuter des modèles de ML pour obtenir des résultats rapides sur lesquels il est possible d'agir avant que les données ne soient envoyées au cloud. Le jeu de données complet peut également être transféré pour continuer à reformer et améliorer vos modèles ML. Parallèlement au DDA où vous affectez un GPU physique entier à une machine virtuelle, le partitionnement GPU vous permet d'exécuter plusieurs applications d'inférence en parallèle sur le même GPU, mais dans des partitions physiques distinctes, ce qui permet d'utiliser le GPU au maximum.

Systèmes d’exploitation invités pris en charge

Le partitionnement GPU sur Windows Server 2025 et versions ultérieures prend en charge ces systèmes d'exploitation invités :

Le partitionnement du GPU sur Azure Stack HCI prend en charge ces systèmes d'exploitation invités :

  • Windows 10 ou version ultérieure
  • Windows 10 Enterprise multi-session ou version ultérieure
  • Windows Server 2019 ou ultérieur
  • Linux Ubuntu 18.04 LTS, Linux Ubuntu 20.04 LTS​, Linux Ubuntu 22.04 LTS

GPU pris en charge

Les GPU suivants prennent en charge le partitionnement du GPU :

  • NVIDIA A2
  • NVIDIA A10
  • NVIDIA A16
  • NVIDIA A40
  • NVIDIA L2
  • NVIDIA L4
  • NVIDIA L40
  • NVIDIA L40S

Remarque

Le pilote NVIDIA ne prend pas actuellement en charge le partitionnement du GPU pour la migration en direct.

Nous vous recommandons de travailler avec vos partenaires OEM (Original Equipment Manufacturer) et les fournisseurs indépendants de matériel GPU (IHV) pour planifier, commander et mettre en place les systèmes pour vos charges de travail souhaitées avec les configurations appropriées et les logiciels nécessaires. Cependant, nous prenons en charge davantage de GPU si vous souhaitez utiliser l'accélération GPU via Discrete Device Assignment (DDA). Contactez vos partenaires OEM et IHV pour obtenir une liste des GPU qui prennent en charge le DDA. Pour plus d'informations sur l'utilisation de l'accélération GPU via DDA, consultez la rubrique Affectation des appareils discrets (DDA).

Pour des performances optimales, nous vous recommandons de créer une configuration homogène pour les GPU sur tous les serveurs de votre cluster. Une configuration homogène consiste à installer la même marque et le même modèle de GPU, et à configurer le même nombre de partitions dans les GPU sur tous les serveurs de la grappe. Par exemple, dans un cluster de deux serveurs avec un ou plusieurs GPU installés, tous les GPU doivent être de la même marque, du même modèle et de la même taille. Le nombre de partitions sur chaque GPU doit également correspondre.

Limites

Tenez compte des limitations suivantes lors de l'utilisation de la fonctionnalité de partitionnement du GPU :

  • Le partitionnement du GPU n'est pas pris en charge si votre configuration n'est pas homogène. Voici quelques exemples de configurations non prises en charge :

    • Mélange de GPU de différents fournisseurs dans le même cluster.

    • Utilisation de différents modèles de GPU de différentes familles de produits du même fournisseur dans le même cluster.

  • Vous ne pouvez pas assigner un GPU physique en tant qu'Attribution d’appareils en mode discret ou GPU partitionnable. Vous pouvez l'assigner comme DDA ou comme GPU partitionnable, mais pas les deux.

  • Vous ne pouvez attribuer qu'une seule partition GPU à une machine virtuelle.

  • Les partitions sont attribuées automatiquement aux machines virtuelles. Vous ne pouvez pas choisir une partition spécifique pour une machine virtuelle spécifique.

  • Actuellement, le partitionnement du GPU sur Azure Stack HCI ne prend pas en charge la migration en direct des machines virtuelles. Mais les machines virtuelles peuvent être automatiquement redémarrées et placées là où les ressources GPU sont disponibles en cas de défaillance.
  • Vous pouvez partitionner votre GPU à l'aide du Windows Admin Center ou à l'aide de PowerShell. Nous vous recommandons d'utiliser Windows Admin Center pour configurer et attribuer des partitions de GPU. Windows Admin Center valide automatiquement une configuration homogène des GPU sur tous les serveurs de votre cluster. Il fournit les avertissements et les erreurs nécessaires pour prendre les mesures correctives qui s'imposent.

  • Si vous utilisez PowerShell pour provisionner le partitionnement des GPU, vous devez effectuer les étapes de provisionnement sur chaque serveur du cluster. Vous devez vous assurer manuellement que la configuration homogène est maintenue pour les GPU sur tous les serveurs de votre cluster.

  • Lors de la migration en direct d'une machine virtuelle avec une partition GPU assignée, la migration en direct Hyper-V reviendra automatiquement à l'utilisation de TCP/IP avec compression. La migration d'une machine virtuelle a pour effet potentiel d'augmenter l'utilisation du processeur d'un hôte. En outre, les migrations en direct peuvent prendre plus de temps qu'avec les machines virtuelles sans partition GPU.