다음을 통해 공유


Azure 인프라의 AI 구현 옵션

이 문서에서는 IaaS(Azure 인프라)에서 AI 워크로드를 실행하는 조직에 대한 구현 권장 사항을 제공합니다. Azure 랜딩 존을 배포한 후 Slurm용 CycleCloud 작업 영역을 사용하여 애플리케이션 랜딩 존을 설정할 수 있습니다. Slurm용 Azure CycleCloud 작업 영역은 Slurm 스케줄러를 사용하여 AI 워크로드를 실행하려는 사용자에게 몇 가지 이점을 제공합니다.

  • 쉽고 빠른 클러스터 만들기. 사용자는 간단한 GUI를 통해 Azure에서 Slurm 클러스터를 빠르게 만들 수 있습니다. 다양한 Azure VM(가상 머신) 크기 및 유형 중에서 선택하고 노드 수, 네트워크 구성, 스토리지 옵션(예: Azure NetApp Files 및 Azure Managed Lustre Filesystem) 및 Slurm 매개 변수와 같은 클러스터 설정을 사용자 지정할 수 있습니다.

  • 유연하고 동적 클러스터 관리. Azure CycleCloud는 Slurm 클러스터를 자동으로 확장 또는 축소합니다. 사용자는 클러스터 상태, 성능 및 사용률을 모니터링하고 GUI를 통해 로그 및 메트릭을 볼 수 있습니다. 필요하지 않은 경우 클러스터를 삭제하고 사용하는 리소스에 대해서만 비용을 지불할 수 있습니다.

  • 인프라를 완전히 제어합니다. 사용자는 배포된 인프라를 완전히 제어하여 자체 코드, 라이브러리 및 패키지를 가져오고 요청 시 리소스를 사용할 수 있습니다.

디자인 지침

다음 문서에서는 Azure 인프라(IaaS)의 AI 워크로드에 대한 지침을 제공합니다.

아키텍처

Azure 랜딩 존의 Azure 인프라에 있는 AI 애플리케이션을 보여 주는 다이어그램그림 1. Azure 랜딩 존의 Azure 인프라에 대한 AI 애플리케이션.

Slurm용 CycleCloud 작업 영역 배포

Slurm용 CycleCloud 작업 영역은 엔터프라이즈 환경에서 초기 배포로 사용할 수 있습니다. 코드를 개발하고 사용자 지정하여 해당 기능을 확장하거나 Azure 랜딩 존 환경에 맞게 조정할 수 있습니다. 그런 다음, 지침에 따라 SlurmAzure CycleCloud 작업 영역을 사용하여 Hugging Face에서 확산 모델을 미세 조정합니다.

다음 단계