Compartilhar via


Solução de problemas de extensão de GPU para VMs de GPU na GPU do Azure Stack Edge Pro

APLICA-SE A: Sim para Pro – SKU de GPUAzure Stack Edge Pro - GPUSim, ao SKU do Pro 2Azure Stack Edge Pro 2Sim, ao SKU do Pro RAzure Stack Edge Pro R

Este artigo fornece diretrizes para resolver os problemas mais comuns que fazem com que a instalação da extensão de GPU em uma VM de GPU falhe em um dispositivo Azure Stack Edge Pro GPU.

Para obter as etapas de instalação, confira Instalar a extensão de GPU.

Em versões inferiores à 2205, a extensão de GPU do Linux instala chaves de assinatura antigas: chave de assinatura e/ou necessária ausente

Descrição do erro: a extensão de GPU do Linux instala chaves de assinatura antigas, impedindo o download do driver de GPU necessário. Nesse caso, você verá o seguinte erro no syslog da VM do Linux:

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel 

Soluções sugeridas: há duas opções para atenuar esse problema:

  • Opção 1: aplicar as atualizações do Azure Stack Edge 2205 ao dispositivo.

  • Opção 2: depois de criar uma máquina virtual de GPU com o tamanho da série NCasT4_v3, instale manualmente as novas chaves de assinatura antes de instalar a extensão. Depois defina as chaves de assinatura necessárias seguindo as etapas em Como atualizar a chave do repositório GPG do Linux CUDA | Blog Técnico da NVIDIA.

    Veja um exemplo que instala chaves de assinatura em uma máquina virtual do Ubuntu 1804:

    $ sudo apt-key adv --fetch-
    keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
    

Falha ao instalar a extensão de GPU em um VHD do Windows 2016

Descrição do erro: esse é um problema conhecido em versões inferiores à 2205. A extensão de GPU requer o TLS 1.2. Nesse caso, pode aparecer a seguinte mensagem de erro:

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

Detalhes adicionais:

  • Verifique o log de convidado em busca do erro associado. Para coletar os logs de convidado, confira Coletar logs de convidado de VMs em um dispositivo Azure Stack Edge Pro GPU.
  • Em uma VM do Linux, procure em /var/log/waagent.log ou /var/log/azure/nvidia-vmext-status.
  • Em uma VM do Windows, localize o status do erro em C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
  • Examine o log de execução completo em C:\WindowsAzure\Logs\WaAppAgent.txt.

Se a instalação falhou durante o download do pacote, esse erro indica que a VM não pôde acessar a rede pública para baixar o driver.

Solução sugerida: use as etapas a seguir para habilitar o TLS 1.2 em uma VM do Windows 2016 e depois implantar a extensão de GPU.

  1. Execute o seguinte comando dentro da VM para habilitar o TLS 1.2:

    sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
    
  2. Implante o modelo addGPUextensiontoVM.json para instalar a extensão em uma VM existente. Você pode instalar a extensão manualmente ou usando o portal do Azure.

    Observação

    A implantação da extensão é um trabalho de execução prolongada e demora cerca de 10 minutos para ser concluída.

Instalar manualmente o driver Nvidia no RHEL 7

Descrição do erro: ao instalar a extensão de GPU em uma VM do RHEL 7, a instalação pode falhar devido a um problema de rotação de certificado e a uma versão incompatível do driver.

Solução sugerida: nesse caso, há duas opções:

  • Opção 1: resolver o problema de rotação do certificado e depois instalar um driver Nvidia inferior à versão 510.

    1. Para resolver o problema de rotação de certificado, execute o seguinte comando:

      $ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
      
    2. Instale um driver Nvidia inferior à versão 510.

  • Opção 2: implantar a extensão de GPU. Use as seguintes configurações ao implantar a extensão do ARM:

    settings": { 
    "isCustomInstall": true, 
    "InstallMethod": 0, 
    "DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
    "DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
    "LIS_URL": "  https://aka.ms/lis", 
    "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
    } 
    

O tamanho da VM não é do tamanho da VM de GPU

Descrição do erro: uma VM de GPU precisa ser do tamanho Standard_NC4as_T4_v3 ou Standard_NC8as_T4_v3. Se qualquer outro tamanho de VM for usado, a extensão de GPU não será anexada.

Solução sugerida: crie uma VM com o tamanho Standard_NC4as_T4_v3 ou Standard_NC8as_T4_v3. Para obter mais informações, confira Tamanhos de VM compatíveis com VMs de GPU. Para obter informações sobre como especificar o tamanho, confira Criar VMs de GPU.

Não há suporte para o sistema operacional da imagem

Descrição do erro: a extensão de GPU não dá suporte ao sistema operacional que está instalado na imagem da VM.

Solução sugerida: prepare uma nova imagem de VM que tenha um sistema operacional compatível com a extensão de GPU.

O parâmetro de extensão está incorreto

Descrição do erro: foram usadas configurações de extensão incorretas ao implantar a extensão de GPU em uma VM do Linux.

Solução sugerida: edite o arquivo de parâmetros antes de implantar a extensão de GPU. Para obter mais informações, confira Instalar a extensão de GPU.

Falha na instalação da extensão da VM ao baixar o pacote

Descrição do erro: falha no provisionamento da extensão durante a instalação da extensão ou enquanto ela estava no estado Habilitar.

  1. Verifique o log de convidado em busca do erro associado. Para coletar os logs de convidado, confira Coletar logs de convidado para VMs em um Azure Stack Edge Pro.

    Em uma VM do Linux:

    • Examine /var/log/waagent.log ou /var/log/azure/nvidia-vmext-status.

    Em uma VM do Windows:

    • Descubra o status de erro em C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
    • Examine o log de execução completo: C:\WindowsAzure\Logs\WaAppAgent.txt.

    Se a instalação falhou durante o download do pacote, esse erro indica que a VM não pôde acessar a rede pública para baixar o driver.

Solução sugerida:

  1. Habilite a computação em uma porta que esteja conectada à Internet. Para obter diretrizes, confira Criar VMs de GPU.

  2. Desaloque a VM interrompendo-a no portal. Para interromper a VM, acesse Máquinas virtuais>Visão geral e selecione a VM. Em seguida, na página de propriedades da VM, escolha Parar.

  3. Crie uma nova VM.

Falha na extensão da VM com o erro dpkg is used/yum lock is used (VM do Linux)

Descrição do erro: falha na implantação da extensão de GPU em uma VM do Linux devido a outro processo usar dpkg ou outro processo ter criado um yum lock.

Solução sugerida: para resolver o problema, siga estas etapas:

  1. Para descobrir qual processo está aplicando o bloqueio, pesquise o log \var\log\azure\nvidia-vmext-status em busca de um erro como “O dpkg está sendo usado por outro processo” ou “Outro aplicativo está retendo yum lock”.

  2. Aguarde até que o processo seja concluído ou encerre-o.

  3. Instale a extensão de GPU novamente.

  4. Se a implantação da extensão falhar novamente, crie outra VM e verifique se o bloqueio não está presente antes de instalar a extensão de GPU.

Próximas etapas

Coletar logs de convidado e criar um pacote de suporte