コンピューティング集中型ワークロードに GPU を使用する (AKS on Azure Local バージョン 23H2)
適用対象: Azure Local バージョン 23H2
Note
AKS on Azure Local 22H2 の GPU の詳細については、「 GPU の使用 (Azure Local 22H2)」を参照してください。
グラフィカル処理ユニット (GPU) は、機械学習、ディープ ラーニングなどのコンピューティング集中型ワークロードに使用されます。 この記事では、Azure Arc で有効になっている AKS でコンピューティング集中型ワークロードに GPU を使用する方法について説明します。
サポートされている GPU モデル
AKS on Azure Local バージョン 23H2 では、次の GPU モデルがサポートされています。
メーカー | GPU モデル | サポートされているバージョン |
---|---|---|
NVidia | A2 | 2311.2 |
NVidia | A16 | 2402.0 |
NVidia | T4 | 2408.0 |
サポートされる VM のサイズ
AKS on Azure Local バージョン 23H2 では、GPU モデルごとに次の VM サイズがサポートされています。
Nvidia T4 は NK T4 SKU でサポートされています
VM サイズ | GPU | GPU メモリ: GiB | vCPU | メモリ:GiB |
---|---|---|---|---|
Standard_NK6 | 1 | 8 | 6 | 12 |
Standard_NK12 | 2 | 16 | 12 | 24 |
Nvidia A2 は NC2 A2 SKU でサポートされています
VM サイズ | GPU | GPU メモリ: GiB | vCPU | メモリ:GiB |
---|---|---|---|---|
Standard_NC4_A2 | 1 | 16 | 4 | 8 |
Standard_NC8_A2 | 1 | 16 | 8 | 16 |
Standard_NC16_A2 | 2 | 48 | 16 | 64 |
Standard_NC32_A2 | 2 | 48 | 32 | 28 |
Nvidia A16 は NC2 A16 SKU でサポートされています
VM サイズ | GPU | GPU メモリ: GiB | vCPU | メモリ:GiB |
---|---|---|---|---|
Standard_NC4_A16 | 1 | 16 | 4 | 8 |
Standard_NC8_A16 | 1 | 16 | 8 | 16 |
Standard_NC16_A16 | 2 | 48 | 16 | 64 |
Standard_NC32_A16 | 2 | 48 | 32 | 28 |
開始する前に
AKS Arc で GPU を使用するには、クラスターのデプロイを開始する前に、必要な GPU ドライバーがインストールされていることを確認してください。 このセクションの手順に従います。
手順 1: OS をインストールする
Azure Local クラスター内の各サーバーに、Azure Local Version 23H2 オペレーティング システムをローカルにインストールします。
手順 2: NVIDIA ホスト ドライバーをアンインストールする
各ホスト コンピューターで、[プログラムの追加と削除コントロール パネル >に移動し NVIDIA ホスト ドライバーをアンインストールしてから、コンピューターを再起動します。 マシンの再起動後、ドライバーが正常にアンインストールされたことを確認します。 管理者特権の PowerShell ターミナルを開き、次のコマンドを実行します。
Get-PnpDevice | select status, class, friendlyname, instanceid | where {$_.friendlyname -eq "3D Video Controller"}
次の出力例に示すように、GPU デバイスがエラー状態で表示されます。
Error 3D Video Controller PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&32EEF88F&0&0000
Error 3D Video Controller PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&3569C1D3&0&0000
手順 3: ホスト ドライバーをホストからマウント解除する
ホスト ドライバーをアンインストールすると、物理 GPU はエラー状態になります。 すべての GPU デバイスをホストからマウント解除する必要があります。
GPU (3D ビデオ コントローラー) デバイスごとに、PowerShell で次のコマンドを実行します。 インスタンス ID をコピーします。たとえば、前のコマンド出力から PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&32EEF88F&0&0000
します。
$id1 = "<Copy and paste GPU instance id into this string>"
$lp1 = (Get-PnpDeviceProperty -KeyName DEVPKEY_Device_LocationPaths -InstanceId $id1).Data[0]
Disable-PnpDevice -InstanceId $id1 -Confirm:$false
Dismount-VMHostAssignableDevice -LocationPath $lp1 -Force
GPU がホストから正しくマウント解除されたことを確認するには、次のコマンドを実行します。 GPU は Unknown
状態にする必要があります。
Get-PnpDevice | select status, class, friendlyname, instanceid | where {$_.friendlyname -eq "3D Video Controller"}
Unknown 3D Video Controller PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&32EEF88F&0&0000
Unknown 3D Video Controller PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&3569C1D3&0&0000
手順 4: NVIDIA 軽減ドライバーをダウンロードしてインストールする
本ソフトウェアには、NVIDIA Corporation またはそのライセンサーによって開発および所有されているコンポーネントが含まれる場合があります。 これらのコンポーネントの使用は、 NVIDIA エンド ユーザー 使用許諾契約書によって管理されます。
NVIDIA 軽減ドライバーをダウンロードするには、 NVIDIA データ センターのドキュメント を参照してください。 ドライバーをダウンロードした後、アーカイブを展開し、各ホスト コンピューターに軽減ドライバーをインストールします。 この PowerShell スクリプトに従って軽減策ドライバーをダウンロードし、抽出できます。
Invoke-WebRequest -Uri "https://docs.nvidia.com/datacenter/tesla/gpu-passthrough/nvidia_azure_stack_inf_v2022.10.13_public.zip" -OutFile "nvidia_azure_stack_inf_v2022.10.13_public.zip"
mkdir nvidia-mitigation-driver
Expand-Archive .\nvidia_azure_stack_inf_v2022.10.13_public.zip .\nvidia-mitigation-driver\
軽減ドライバーをインストールするには、抽出されたファイルが含まれているフォルダーに移動し、Azure ローカル ホストにインストールされている実際の GPU の種類に基づいて GPU ドライバー ファイルを選択します。 たとえば、種類が A2 GPU の場合は、 nvidia_azure_stack_A2_base.inf ファイルを右クリックし、 Install を選択します。
フォルダーに移動し、次のコマンドを実行して軽減ドライバーをインストールすることで、コマンド ラインを使用してインストールすることもできます。
pnputil /add-driver nvidia_azure_stack_A2_base.inf /install
pnputil /scan-devices
軽減ドライバーをインストールすると、GPU は OK 状態の Nvidia A2_base - マウント解除の下に表示されます。
Get-PnpDevice | select status, class, friendlyname, instanceid | where {$_.friendlyname -match "Nvidia"}"
OK Nvidia A2_base - Dismounted PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&32EEF88F&0&0000
OK Nvidia A2_base - Dismounted PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&3569C1D3&0&0000
手順 5: 手順 1 から 4 を繰り返す
Azure ローカル クラスター内の各サーバーに対して手順 1 から 4 を繰り返します。
手順 6: Azure ローカル クラスターのデプロイを続行する
Azure Local バージョン 23H2 のデプロイの手順に従って、 Azure Local クラスターのデプロイを続行します。
使用可能な GPU 対応 VM SKU の一覧を取得する
Azure ローカル クラスターのデプロイが完了したら、次の CLI コマンドを実行して、デプロイで使用可能な VM SKU を表示できます。 GPU ドライバーが正しくインストールされている場合は、対応する GPU VM SKU が一覧表示されます。
az aksarc vmsize list --custom-location <custom location ID> -g <resource group name>
GPU 対応ノード プールを使用して新しいワークロード クラスターを作成する
現在、GPU 対応ノード プールの使用は Linux ノード プールでのみ使用できます。 新しい Kubernetes クラスターを作成するには:
az aksarc create -n <aks cluster name> -g <resource group name> --custom-location <custom location ID> --vnet-ids <vnet ID>
次の例では、 Standard_NC4_A2 VM SKU を持つ 2 つの GPU 対応 (NVDIA A2) ノードを持つノード プールを追加します。
az aksarc nodepool add --cluster-name <aks cluster name> -n <node pool name> -g <resource group name> --node-count 2 --node-vm-size Standard_NC4_A2 --os-type Linux
GPU をスケジュールできることを確認する
GPU ノード プールが作成されたら、Kubernetes で GPU をスケジュールできることを確認します。 まず、kubectl get nodes コマンドを使用して、クラスター内のノードを一覧表示します。
kubectl get nodes
NAME STATUS ROLES AGE VERSION
moc-l9qz36vtxzj Ready control-plane,master 6m14s v1.22.6
moc-lhbkqoncefu Ready <none> 3m19s v1.22.6
moc-li87udi8l9s Ready <none> 3m5s v1.22.6
次に、 kubectl describe node コマンドを使用して、GPU をスケジュールできることを確認します。 Capacity セクションでは、GPU は nvidia.com/gpu: 1 として表示されます。
kubectl describe <node> | findstr "gpu"
出力にはワーカー ノードからの GPU が表示され、次のようになります。
Capacity:
cpu: 4
ephemeral-storage: 103110508Ki
hugepages-1Gi: 0
hugepages-2Mi: 0
memory: 7865020Ki
nvidia.com/gpu: 1
pods: 110
GPU 対応ワークロードの実行
前の手順を完了したら、テスト用の新しい YAML ファイルを作成します。たとえば、 gpupod.yaml。 次の YAML をコピーして、 gpupod.yaml という名前の新しいファイルに貼り付け保存します。
apiVersion: v1
kind: Pod
metadata:
name: cuda-vector-add
spec:
restartPolicy: OnFailure
containers:
- name: cuda-vector-add
image: "k8s.gcr.io/cuda-vector-add:v0.1"
resources:
limits:
nvidia.com/gpu: 1
次のコマンドを実行して、サンプル アプリケーションをデプロイします。
kubectl apply -f gpupod.yaml
ポッドが起動し、実行が完了し、GPU が割り当てられていることを確認します。
kubectl describe pod cuda-vector-add | findstr 'gpu'
前のコマンドでは、1 つの GPU が割り当てられている必要があります。
nvidia.com/gpu: 1
nvidia.com/gpu: 1
ポッドのログ ファイルを調べて、テストに合格したかどうかを確認します。
kubectl logs cuda-vector-add
前のコマンドからの出力例を次に示します。
[Vector addition of 50000 elements]
Copy input data from the host memory to the CUDA device
CUDA kernel launch with 196 blocks of 256 threads
Copy output data from the CUDA device to the host memory
Test PASSED
Done
ドライバーを呼び出すときにバージョンの不一致エラーが発生する場合 ("CUDA ドライバーのバージョンは CUDA ランタイム バージョンでは不十分です" など)、 NVIDIA ドライバー マトリックスの互換性グラフを確認してください。
よく寄せられる質問
GPU 対応ノード プールのアップグレード中はどうなりますか?
GPU 対応ノード プールのアップグレードは、通常のノード プールに使用されるのと同じローリング アップグレード パターンに従います。 新しい VM 内の GPU 対応ノード プールを物理ホスト マシンに正常に作成するには、デバイスの割り当てを成功させるために 1 つ以上の物理 GPU を使用できる必要があります。 この可用性により、Kubernetes がこのアップグレードされたノードでポッドをスケジュールするときに、アプリケーションの実行を続行できます。
アップグレードする前に、次の手順を実行します。
- アップグレード中のダウンタイムを計画します。
- Standard_NK6を実行している場合は物理ホストごとに 1 つの GPU を追加し、Standard_NK12を実行している場合は 2 つの GPU を追加します。 フル容量で実行していて、追加の GPU がない場合は、アップグレードの前にノード プールを 1 つのノードにスケールダウンしてから、アップグレードが成功した後にスケールアップすることをお勧めします。
アップグレード中に物理マシンに追加の物理 GPU がない場合はどうなりますか?
ローリング アップグレードを容易にするために GPU リソースを追加せずにクラスターでアップグレードがトリガーされた場合、GPU が使用可能になるまでアップグレード プロセスがハングします。 完全な容量で実行し、GPU が追加されていない場合は、アップグレードの前にノード プールを 1 つのノードにスケールダウンしてから、アップグレードが成功した後にスケールアップすることをお勧めします。