Installer l’extension GPU sur des machines virtuelles pour votre appareil Azure Stack Edge Pro avec GPU
S’APPLIQUE À :Azure Stack Edge Pro – GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R
Cet article explique comment installer l’extension du pilote GPU pour installer les pilotes NVIDIA appropriés sur les machines virtuelles GPU s’exécutant sur votre appareil Azure Stack Edge. L’article couvre les étapes d’installation d’une extension GPU à l’aide de modèles Azure Resource Manager sur des machines virtuelles Windows et Linux.
Remarque
- Dans le portail Azure, vous pouvez installer une extension GPU pendant la création de la machine virtuelle ou après son déploiement. Pour connaître les étapes et la configuration requise, consultez Déployer des machines virtuelles avec GPU.
- Si vous exécutez un disque dur virtuel Windows 2016, vous devez activer TLS 1.2 à l’intérieur de la machine virtuelle avant d’installer l’extension GPU sur la versions 2205 et versions ultérieures. Pour une procédure détaillées, consultez Résoudre les problèmes d’extension GPU des machines virtuelles GPU sur Azure Stack Edge Pro avec GPU.
Prérequis
Avant d’installer l’extension GPU sur les machines virtuelles GPU exécutées sur votre appareil, assurez-vous que :
Vous avez accès à un appareil Azure Stack Edge sur lequel vous avez déployé une ou plusieurs machines virtuelles GPU. Sachez comment Déployer une machine virtuelle GPU sur votre appareil.
Assurez-vous que le port activé pour le réseau de calcul sur votre appareil est connecté à Internet et qu’il y a accès. Les pilotes GPU sont téléchargés via l’accès à Internet.
Dans l’exemple suivant, le port 2 était connecté à Internet et a été utilisé pour activer le réseau de calcul. Si Kubernetes n’est pas déployé sur votre environnement, vous pouvez ignorer l’IP du nœud Kubernetes et l’attribution de l’IP du service externe.
Téléchargez les fichiers de paramètres et les modèles d’extension GPU sur votre ordinateur client. Décompressez-les dans le répertoire qui vous sert de répertoire de travail.
Vérifiez que le client que vous allez utiliser pour accéder à votre appareil est toujours connecté à l’instance Azure Resource Manager sur Azure PowerShell. La connexion à Azure Resource Manager expire toutes les 1,5 heures ou si votre appareil Azure Stack Edge redémarre. Dans ce cas, toute cmdlet que vous exécutez retourne un message d’erreur indiquant que vous n’êtes plus connecté à Azure. Vous devez vous reconnecter. Pour obtenir des instructions détaillées, consultez Se connecter à Azure Resource Manager sur votre appareil Azure Stack Edge.
Modification du fichier de paramètres
Selon le système d’exploitation de votre machine virtuelle, vous pouvez installer l’extension GPU pour Windows ou pour Linux.
Pour déployer des pilotes GPU Nvidia pour une machine virtuelle existante, modifiez le fichier de paramètres addGPUExtWindowsVM.parameters.json
, puis déployez le modèle addGPUextensiontoVM.json
.
Versions 2205 et ultérieures
Le fichier addGPUExtWindowsVM.parameters.json
prend les paramètres suivants :
"parameters": {
"vmName": {
"value": "<name of the VM>"
},
"extensionName": {
"value": "<name for the extension. Example: windowsGpu>"
},
"publisher": {
"value": "Microsoft.HpcCompute"
},
"type": {
"value": "NvidiaGpuDriverWindows"
},
"typeHandlerVersion": {
"value": "1.5"
},
"settings": {
"value": {
"DriverURL" : "http://us.download.nvidia.com/tesla/511.65/511.65-data-center-tesla-desktop-winserver-2016-2019-2022-dch-international.exe",
"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType":"CUDA"
}
}
}
Versions antérieures à la version 2205
Le fichier addGPUExtWindowsVM.parameters.json
prend les paramètres suivants :
"parameters": {
"vmName": {
"value": "<name of the VM>"
},
"extensionName": {
"value": "<name for the extension. Example: windowsGpu>"
},
"publisher": {
"value": "Microsoft.HpcCompute"
},
"type": {
"value": "NvidiaGpuDriverWindows"
},
"typeHandlerVersion": {
"value": "1.3"
},
"settings": {
"value": {
"DriverURL" : "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType":"CUDA"
}
}
}
Déployer un modèle
Déployez le modèle addGPUextensiontoVM.json
pour installer l’extension sur une machine virtuelle existante.
Exécutez la commande suivante :
$templateFile = "<Path to addGPUextensiontoVM.json>"
$templateParameterFile = "<Path to addGPUExtWindowsVM.parameters.json>"
RGName = "<Name of your resource group>"
New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "<Name for your deployment>"
Remarque
Le déploiement de l’extension est une opération durable qui prend environ 10 minutes.
Voici un exemple de sortie :
PS C:\WINDOWS\system32> "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json
PS C:\WINDOWS\system32> $templateFile = "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
PS C:\WINDOWS\system32> $templateParameterFile = "C:\12-09-2020\ExtensionTemplates\addGPUExtWindowsVM.parameters.json"
PS C:\WINDOWS\system32> $RGName = "myasegpuvm1"
PS C:\WINDOWS\system32> New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "deployment3"
DeploymentName : deployment3
ResourceGroupName : myasegpuvm1
ProvisioningState : Succeeded
Timestamp : 12/16/2020 12:18:50 AM
Mode : Incremental
TemplateLink :
Parameters :
Name Type Value
=============== ========================= ==========
vmName String VM2
extensionName String windowsgpuext
publisher String Microsoft.HpcCompute
type String NvidiaGpuDriverWindows
typeHandlerVersion String 1.3
settings Object {
"DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
"DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType": "CUDA"
}
Outputs :
DeploymentDebugLogLevel :
PS C:\WINDOWS\system32>
Suivre le déploiement
Pour suivre l’état du déploiement des extensions pour une machine virtuelle donnée, ouvrez une autre session PowerShell (exécuter en tant qu’administrateur), puis exécutez la commande suivante :
Get-AzureRmVMExtension -ResourceGroupName <Name of resource group> -VMName <Name of VM> -Name <Name of the extension>
Voici un exemple de sortie :
PS C:\WINDOWS\system32> Get-AzureRmVMExtension -ResourceGroupName myasegpuvm1 -VMName VM2 -Name windowsgpuext
ResourceGroupName : myasegpuvm1
VMName : VM2
Name : windowsgpuext
Location : dbelocal
Etag : null
Publisher : Microsoft.HpcCompute
ExtensionType : NvidiaGpuDriverWindows
TypeHandlerVersion : 1.3
Id : /subscriptions/947b3cfd-7a1b-4a90-7cc5-e52caf221332/resourceGroups/myasegpuvm1/providers/Microsoft.Compute/virtualMachines/VM2/extensions/windowsgpuext
PublicSettings : {
"DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
"DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType": "CUDA"
}
ProtectedSettings :
ProvisioningState : Creating
Statuses :
SubStatuses :
AutoUpgradeMinorVersion : True
ForceUpdateTag :
PS C:\WINDOWS\system32>
La sortie de l’exécution de l’extension est enregistrée dans le fichier suivant. Reportez-vous à ce fichier C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
pour suivre l’état de l’installation.
Une installation réussie affiche un message
avec Enable Extension
et status
de success
.
"status": {
"formattedMessage": {
"message": "Enable Extension",
"lang": "en"
},
"name": "NvidiaGpuDriverWindows",
"status": "success",
Vérification de l’installation du pilote
Connectez-vous à la machine virtuelle et exécutez l’utilitaire en ligne de commande nvidia-smi installé avec le pilote.
Versions 2205 et ultérieures
Le fichier nvidia-smi.exe
se trouve à l’emplacement C:\Windows\System32\nvidia-smi.exe
. Si vous ne voyez pas le fichier, il est possible que l’installation du pilote soit toujours en cours d’exécution en arrière-plan. Attendez 10 minutes, puis vérifiez à nouveau.
Versions antérieures à la version 2205
Le fichier nvidia-smi.exe
se trouve à l’emplacement C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe
. Si vous ne voyez pas le fichier, il est possible que l’installation du pilote soit toujours en cours d’exécution en arrière-plan. Attendez 10 minutes, puis vérifiez à nouveau.
Si le pilote est installé, le résultat obtenu ressemble à l’exemple suivant :
PS C:\Users\Administrator> cd "C:\Program Files\NVIDIA Corporation\NVSMI"
PS C:\Program Files\NVIDIA Corporation\NVSMI> ls
Directory: C:\Program Files\NVIDIA Corporation\NVSMI
Mode LastWriteTime Length Name
---- ------------- ------ ----
-a---- 2/26/2020 12:00 PM 849640 MCU.exe
-a---- 2/26/2020 12:00 PM 443104 nvdebugdump.exe
-a---- 2/25/2020 2:06 AM 81823 nvidia-smi.1.pdf
-a---- 2/26/2020 12:01 PM 566880 nvidia-smi.exe
-a---- 2/26/2020 12:01 PM 991344 nvml.dll
PS C:\Program Files\NVIDIA Corporation\NVSMI> .\nvidia-smi.exe
Wed Dec 16 00:35:51 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 442.50 Driver Version: 442.50 CUDA Version: 10.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name TCC/WDDM | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla T4 TCC | 0000503C:00:00.0 Off | 0 |
| N/A 35C P8 11W / 70W | 8MiB / 15205MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
PS C:\Program Files\NVIDIA Corporation\NVSMI>
Pour plus d’informations, consultez Extension du pilote GPU Nvidia pour Windows.
Remarque
Une fois que vous avez terminé l’installation du pilote et de l’extension du GPU, vous n’avez plus besoin d’utiliser un port avec accès Internet pour le calcul.
Supprimer l’extension GPU
Pour supprimer l’extension GPU, utilisez la commande suivante :
Remove-AzureRmVMExtension -ResourceGroupName <Resource group name> -VMName <VM name> -Name <Extension name>
Voici un exemple de sortie :
PS C:\azure-stack-edge-deploy-vms> Remove-AzureRmVMExtension -ResourceGroupName rgl -VMName WindowsVM -Name windowsgpuext
Virtual machine extension removal operation
This cmdlet will remove the specified virtual machine extension. Do you want to continue? [Y] Yes [N] No [S] Suspend [?] Help (default is "Y"): y
Requestld IsSuccessStatusCode StatusCode ReasonPhrase
--------- ------------------- ---------- ------------
True OK OK
Étapes suivantes
Découvrez comment :