Solução de problemas de extensão de GPU para VMs de GPU na GPU do Azure Stack Edge Pro
APLICA-SE A: Azure Stack Edge Pro - GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R
Este artigo fornece diretrizes para resolver os problemas mais comuns que fazem com que a instalação da extensão de GPU em uma VM de GPU falhe em um dispositivo Azure Stack Edge Pro GPU.
Para obter as etapas de instalação, confira Instalar a extensão de GPU.
Em versões inferiores à 2205, a extensão de GPU do Linux instala chaves de assinatura antigas: chave de assinatura e/ou necessária ausente
Descrição do erro: a extensão de GPU do Linux instala chaves de assinatura antigas, impedindo o download do driver de GPU necessário. Nesse caso, você verá o seguinte erro no syslog da VM do Linux:
/var/log/syslog and /var/log/waagent.log
May 5 06:04:53 gpuvm12 kernel: [ 833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel
Soluções sugeridas: há duas opções para atenuar esse problema:
Opção 1: aplicar as atualizações do Azure Stack Edge 2205 ao dispositivo.
Opção 2: depois de criar uma máquina virtual de GPU com o tamanho da série NCasT4_v3, instale manualmente as novas chaves de assinatura antes de instalar a extensão. Depois defina as chaves de assinatura necessárias seguindo as etapas em Como atualizar a chave do repositório GPG do Linux CUDA | Blog Técnico da NVIDIA.
Veja um exemplo que instala chaves de assinatura em uma máquina virtual do Ubuntu 1804:
$ sudo apt-key adv --fetch- keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub
Falha ao instalar a extensão de GPU em um VHD do Windows 2016
Descrição do erro: esse é um problema conhecido em versões inferiores à 2205. A extensão de GPU requer o TLS 1.2. Nesse caso, pode aparecer a seguinte mensagem de erro:
Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!
Detalhes adicionais:
- Verifique o log de convidado em busca do erro associado. Para coletar os logs de convidado, confira Coletar logs de convidado de VMs em um dispositivo Azure Stack Edge Pro GPU.
- Em uma VM do Linux, procure em
/var/log/waagent.log
ou/var/log/azure/nvidia-vmext-status
. - Em uma VM do Windows, localize o status do erro em
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
. - Examine o log de execução completo em
C:\WindowsAzure\Logs\WaAppAgent.txt
.
Se a instalação falhou durante o download do pacote, esse erro indica que a VM não pôde acessar a rede pública para baixar o driver.
Solução sugerida: use as etapas a seguir para habilitar o TLS 1.2 em uma VM do Windows 2016 e depois implantar a extensão de GPU.
Execute o seguinte comando dentro da VM para habilitar o TLS 1.2:
sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
Implante o modelo
addGPUextensiontoVM.json
para instalar a extensão em uma VM existente. Você pode instalar a extensão manualmente ou usando o portal do Azure.- Para instalar a extensão manualmente, confira Instalar a extensão de GPU em VMs do dispositivo Azure Stack Edge Pro GPU
- Para instalar o modelo usando o portal do Azure, confira Implantar VMs de GPU no dispositivo Azure Stack Edge Pro GPU.
Observação
A implantação da extensão é um trabalho de execução prolongada e demora cerca de 10 minutos para ser concluída.
Instalar manualmente o driver Nvidia no RHEL 7
Descrição do erro: ao instalar a extensão de GPU em uma VM do RHEL 7, a instalação pode falhar devido a um problema de rotação de certificado e a uma versão incompatível do driver.
Solução sugerida: nesse caso, há duas opções:
Opção 1: resolver o problema de rotação do certificado e depois instalar um driver Nvidia inferior à versão 510.
Para resolver o problema de rotação de certificado, execute o seguinte comando:
$ sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
Instale um driver Nvidia inferior à versão 510.
Opção 2: implantar a extensão de GPU. Use as seguintes configurações ao implantar a extensão do ARM:
settings": { "isCustomInstall": true, "InstallMethod": 0, "DRIVER_URL": " https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", "DKMS_URL" : " https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", "LIS_URL": " https://aka.ms/lis", "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" }
O tamanho da VM não é do tamanho da VM de GPU
Descrição do erro: uma VM de GPU precisa ser do tamanho Standard_NC4as_T4_v3 ou Standard_NC8as_T4_v3. Se qualquer outro tamanho de VM for usado, a extensão de GPU não será anexada.
Solução sugerida: crie uma VM com o tamanho Standard_NC4as_T4_v3 ou Standard_NC8as_T4_v3. Para obter mais informações, confira Tamanhos de VM compatíveis com VMs de GPU. Para obter informações sobre como especificar o tamanho, confira Criar VMs de GPU.
Não há suporte para o sistema operacional da imagem
Descrição do erro: a extensão de GPU não dá suporte ao sistema operacional que está instalado na imagem da VM.
Solução sugerida: prepare uma nova imagem de VM que tenha um sistema operacional compatível com a extensão de GPU.
Para obter uma lista de sistemas operacionais compatíveis, confira Drivers de sistema operacional e de GPU compatíveis com VMs de GPU.
Para obter os requisitos de preparação de imagem para uma VM de GPU, confira Criar VMs de GPU.
O parâmetro de extensão está incorreto
Descrição do erro: foram usadas configurações de extensão incorretas ao implantar a extensão de GPU em uma VM do Linux.
Solução sugerida: edite o arquivo de parâmetros antes de implantar a extensão de GPU. Para obter mais informações, confira Instalar a extensão de GPU.
Falha na instalação da extensão da VM ao baixar o pacote
Descrição do erro: falha no provisionamento da extensão durante a instalação da extensão ou enquanto ela estava no estado Habilitar.
Verifique o log de convidado em busca do erro associado. Para coletar os logs de convidado, confira Coletar logs de convidado para VMs em um Azure Stack Edge Pro.
Em uma VM do Linux:
- Examine
/var/log/waagent.log
ou/var/log/azure/nvidia-vmext-status
.
Em uma VM do Windows:
- Descubra o status de erro em
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
. - Examine o log de execução completo:
C:\WindowsAzure\Logs\WaAppAgent.txt
.
Se a instalação falhou durante o download do pacote, esse erro indica que a VM não pôde acessar a rede pública para baixar o driver.
- Examine
Solução sugerida:
Habilite a computação em uma porta que esteja conectada à Internet. Para obter diretrizes, confira Criar VMs de GPU.
Desaloque a VM interrompendo-a no portal. Para interromper a VM, acesse Máquinas virtuais>Visão geral e selecione a VM. Em seguida, na página de propriedades da VM, escolha Parar.
Crie uma nova VM.
Falha na extensão da VM com o erro dpkg is used/yum lock is used
(VM do Linux)
Descrição do erro: falha na implantação da extensão de GPU em uma VM do Linux devido a outro processo usar dpkg
ou outro processo ter criado um yum lock
.
Solução sugerida: para resolver o problema, siga estas etapas:
Para descobrir qual processo está aplicando o bloqueio, pesquise o log \var\log\azure\nvidia-vmext-status em busca de um erro como “O dpkg está sendo usado por outro processo” ou “Outro aplicativo está retendo
yum lock
”.Aguarde até que o processo seja concluído ou encerre-o.
Instale a extensão de GPU novamente.
Se a implantação da extensão falhar novamente, crie outra VM e verifique se o bloqueio não está presente antes de instalar a extensão de GPU.