다음을 통해 공유


컨테이너 인사이트를 사용하여 GPU 모니터링 구성

컨테이너 인사이트는 다음 GPU 공급업체의 GPU 클러스터에 대한 모니터링을 지원합니다.

컨테이너 인사이트는 60초 간격으로 다음 메트릭을 수집하고 InsightMetrics 테이블에 저장하여 노드와 GPU 요청 Pod 및 워크로드의 GPU 사용량에 대한 모니터링을 자동으로 시작합니다.

참고 항목

GPU 노드를 사용하여 클러스터를 프로비전한 후 AKS(Azure Kubernetes Service)의 요구 사항에 따라 GPU 워크로드를 실행하는 데 필요한 GPU 드라이버가 설치되어 있는지 확인합니다. 컨테이너 인사이트는 노드에서 실행되는 GPU 드라이버 Pod를 통해 GPU 메트릭을 수집합니다.

메트릭 이름 메트릭 차원(태그) 설명
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor 과거 샘플 기간(60초) 대비 GPU가 컨테이너를 위해 사용 중/적극적으로 처리 중인 시간의 백분율입니다. 업무 주기는 1에서 100 사이의 숫자입니다.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName 각 컨테이너가 하나 이상의 GPU로 한도를 지정할 수 있습니다. GPU의 일부를 요청하거나 제한할 수는 없습니다.
containerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName 각 컨테이너가 하나 이상의 GPU를 요청할 수 있습니다. GPU의 일부를 요청하거나 제한할 수는 없습니다.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor 특정 컨테이너에 사용할 수 있는 GPU 메모리 크기(바이트)입니다.
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor 특정 컨테이너에 사용 중인 GPU 메모리 크기(바이트)입니다.
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Kubernetes에서 사용할 수 있는 한 노드의 GPU 수입니다.
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor 한 노드에 있는 총 GPU 수입니다.

* Kubernetes 업스트림 변경 내용에 따라 이러한 메트릭은 더 이상 즉시 수집되지 않습니다. 임시 핫픽스로, AKS의 경우 GPU 노드 풀을 최신 버전 또는 *-2022.06.08 이상으로 업그레이드합니다. Azure Arc 지원 Kubernetes의 경우 노드의 kubelet 구성에서 기능 게이트 DisableAcceleratorUsageMetrics=false를 사용하도록 설정하고 kubelet을 다시 시작합니다. 업스트림 변경 내용이 일반 공급에 도달하면 이 픽스는 더 이상 작동하지 않습니다.

GPU 성능 차트

컨테이너 인사이트에는 앞서 표에 나열된 메트릭에 대해 미리 구성된 차트가 각 클러스터의 GPU 통합 문서로 포함되어 있습니다. 컨테이너 인사이트에 사용할 수 있는 통합 문서에 대한 설명은 컨테이너 인사이트의 통합 문서를 참조하세요.

다음 단계