분산 GPU 학습 가이드(SDK v2)
적용 대상: Python SDK azure-ai-ml v2(현재)
Azure Machine Learning에서 분산 GPU 학습 코드를 사용하는 방법에 대해 자세히 알아봅니다. 이 문서는 기존 분산 학습 코드를 실행하는 데 도움이 되며 각 프레임워크에 대해 따라야 할 팁과 예제를 제공합니다.
- PyTorch
- TensorFlow
- InfiniBand를 통해 GPU 학습 가속화
필수 조건
데이터 병렬 처리, 분산 데이터 병렬 처리, 모델 병렬 처리 등 분산 GPU 학습의 기본 개념을 검토합니다.
팁
사용할 병렬 처리의 유형을 모르는 경우, 90% 이상 분산 데이터 병렬 처리를 사용해야 합니다.
PyTorch
Azure Machine Learning은 PyTorch의 네이티브 분산 학습 기능(torch.distributed
)을 사용하여 분산 작업 실행을 지원합니다.
팁
데이터 병렬 처리 시 공식 PyTorch 지침은 단일 노드 및 다중 노드 분산 학습에 모두 DataParallel을 통해 DDP(DistributedDataParallel)를 사용하는 것입니다. 또한 PyTorch에서는 다중 처리 패키지에 대해 DistributedDataParallel을 사용하는 것이 좋습니다. 따라서 Azure Machine Learning 설명서와 예제는 DistributedDataParallel 학습에 초점을 맞춥니다.
프로세스 그룹 초기화
분산 학습의 백본은 서로를 알고, 백 엔드를 사용해 서로 통신할 수 있는 프로세스 그룹을 기반으로 합니다. PyTorch의 경우 프로세스 그룹이 모든 분산 프로세스에서 torch.distributed.init_process_group을 호출하여 만들어져 총칭하여 프로세스 그룹을 형성합니다.
torch.distributed.init_process_group(backend='nccl', init_method='env://', ...)
사용되는 가장 일반적인 통신 백 엔드는 mpi
, nccl
, gloo
입니다. GPU 기반 학습의 경우 nccl
은 최고의 성능을 발휘하려는 경우에 권장되며, 가능할 때마다 사용해야 합니다.
init_method
는 각 프로세스가 서로를 검색하는 방법, 통신 백 엔드를 사용하여 프로세스 그룹을 초기화하고 확인하는 방법을 알려 줍니다. 기본적으로 init_method
가 지정되어 있지 않으면 PyTorch에서는 환경 변수 초기화 메서드(env://
)를 사용합니다. init_method
는 Azure Machine Learning에서 분산 PyTorch를 실행하기 위해 학습 코드에서 사용하는 권장 초기화 방법입니다. PyTorch는 초기화를 위해 다음의 환경 변수를 찾습니다.
MASTER_ADDR
: 0순위의 프로세스를 호스팅할 컴퓨터의 IP 주소입니다.MASTER_PORT
: 0순위의 프로세스를 호스트하는 컴퓨터에서 사용 가능한 포트입니다.WORLD_SIZE
: 프로세스의 총수입니다. 분산 학습에 사용되는 총 디바이스(GPU) 수와 같아야 합니다.RANK
: 현재 프로세스의 순위(전체)입니다. 가능한 값은 0~(세계 크기 - 1)입니다.
프로세스 그룹 초기화에 대한 자세한 내용은 PyTorch 설명서를 참조하세요.
또한 많은 애플리케이션에는 다음과 같은 환경 변수가 필요합니다.
LOCAL_RANK
: 노드 내 프로세스의 로컬 순위(상대)입니다. 가능한 값은 0~(노드의 프로세스 수 - 1)입니다. 데이터 준비와 같은 많은 작업이 노드별로 한 번만 수행되어야 하기 때문에(일반적으로 local_rank = 0) 이 정보는 유용합니다.NODE_RANK
: 다중 노드 학습을 위한 노드의 순위입니다. 가능한 값은 0~(총 노드 수 - 1)입니다.
torch.distributed.launch
같은 시작 관리자 유틸리티를 사용할 필요가 없습니다. 분산 PyTorch 작업을 실행하려면 다음을 수행합니다.
- 학습 스크립트 및 인수를 지정합니다.
command
를 만들고 형식을PyTorch
로 지정하고distribution
매개 변수에서process_count_per_instance
를 지정합니다.process_count_per_instance
는 작업에 대해 실행하려는 총 프로세스 수에 해당합니다.process_count_per_instance
는 일반적으로# of GPUs per node
와 동일해야 합니다.process_count_per_instance
가 지정되지 않은 경우 Azure Machine Learning은 기본적으로 노드당 하나의 프로세스를 시작합니다.
Azure Machine Learning은 각 노드에서 MASTER_ADDR
, MASTER_PORT
, WORLD_SIZE
및 NODE_RANK
환경 변수를 설정하고 프로세스 수준 RANK
및 LOCAL_RANK
환경 변수를 설정합니다.
from azure.ai.ml import command
from azure.ai.ml.entities import Data
from azure.ai.ml import Input
from azure.ai.ml import Output
from azure.ai.ml.constants import AssetTypes
# === Note on path ===
# can be can be a local path or a cloud path. AzureML supports https://`, `abfss://`, `wasbs://` and `azureml://` URIs.
# Local paths are automatically uploaded to the default datastore in the cloud.
# More details on supported paths: https://docs.microsoft.com/azure/machine-learning/how-to-read-write-data-v2#supported-paths
inputs = {
"cifar": Input(
type=AssetTypes.URI_FOLDER, path=returned_job.outputs.cifar.path
), # path="azureml:azureml_stoic_cartoon_wgb3lgvgky_output_data_cifar:1"), #path="azureml://datastores/workspaceblobstore/paths/azureml/stoic_cartoon_wgb3lgvgky/cifar/"),
"epoch": 10,
"batchsize": 64,
"workers": 2,
"lr": 0.01,
"momen": 0.9,
"prtfreq": 200,
"output": "./outputs",
}
from azure.ai.ml.entities import ResourceConfiguration
job = command(
code="./src", # local path where the code is stored
command="python train.py --data-dir ${{inputs.cifar}} --epochs ${{inputs.epoch}} --batch-size ${{inputs.batchsize}} --workers ${{inputs.workers}} --learning-rate ${{inputs.lr}} --momentum ${{inputs.momen}} --print-freq ${{inputs.prtfreq}} --model-dir ${{inputs.output}}",
inputs=inputs,
environment="azureml:AzureML-acpt-pytorch-2.2-cuda12.1@latest",
instance_count=2, # In this, only 2 node cluster was created.
distribution={
"type": "PyTorch",
# set process count to the number of gpus per node
# NC6s_v3 has only 1 GPU
"process_count_per_instance": 1,
},
)
job.resources = ResourceConfiguration(
instance_type="Standard_NC6s_v3", instance_count=2
) # Serverless compute resources
Pytorch 예
- Pytorch 예를 실행하기 위한 전체 Notebook은 azureml-examples: CIFAR-10에서 PyTorch를 사용하여 분산 학습을 참조하세요.
DeepSpeed
Azure Machine Learning은 다음과 같은 측면에서 선형에 가까운 확장성으로 분산 작업을 실행할 수 있도록 DeepSpeed를 최고의 개체로 지원합니다.
- 모델 크기 증가
- GPU 수 증가
DeepSpeed는 분산 학습을 실행하기 위해 Pytorch 배포 또는 MPI를 사용하여 사용하도록 설정할 수 있습니다. Azure Machine Learning은 DeepSpeed 실행 프로그램을 지원하여 분산 학습을 시작하고 최적의 ds
구성을 가져오기 위한 자동 튜닝을 시작합니다.
DeepSpeed 학습 작업을 위해 DeepSpeed, ORT, MSSCCL 및 Pytorch를 비롯한 최신 기술이 적용된 즉시 사용 가능한 환경을 위한 큐레이션된 환경을 사용할 수 있습니다.
DeepSpeed 예제
- DeepSpeed 학습 및 자동 튜닝 예는 이 폴더를 참조하세요.
TensorFlow
TensorFlow 2.x의 tf.distribute.Strategy
API와 같은 학습 코드에서 네이티브 분산 TensorFlow를 사용하는 경우 distribution
매개 변수 또는 TensorFlowDistribution
개체를 사용하여 Azure Machine Learning을 통해 분산 작업을 시작할 수 있습니다.
# create the command
job = command(
code="./src", # local path where the code is stored
command="python main.py --epochs ${{inputs.epochs}} --model-dir ${{inputs.model_dir}}",
inputs={"epochs": 1, "model_dir": "outputs/keras-model"},
environment="AzureML-tensorflow-2.16-cuda12@latest",
compute="cpu-cluster",
instance_count=2,
# distribution = {"type": "mpi", "process_count_per_instance": 1},
# distribution={
# "type": "tensorflow",
# "parameter_server_count": 1, # for legacy TensorFlow 1.x
# "worker_count": 2,
# "added_property": 7,
# },
# distribution = {
# "type": "pytorch",
# "process_count_per_instance": 4,
# "additional_prop": {"nested_prop": 3},
# },
display_name="tensorflow-mnist-distributed-example"
# experiment_name: tensorflow-mnist-distributed-example
# description: Train a basic neural network with TensorFlow on the MNIST dataset, distributed via TensorFlow.
)
# can also set the distribution in a separate step and using the typed objects instead of a dict
job.distribution = TensorFlowDistribution(worker_count=2)
학습 스크립트가 분산 학습에 매개 변수 서버 전략(예: 레거시 TensorFlow 1.x)을 사용하는 경우, command
의 distribution
매개 변수 내에서 작업에 사용할 매개 변수 서버의 수도 지정해야 합니다. 예를 들어, 위에서는 "parameter_server_count" : 1
및 "worker_count": 2
입니다.
TF_CONFIG
TensorFlow에서 TF_CONFIG
환경 변수는 여러 머신에서 학습하는 데 필요합니다. TensorFlow작업의 경우 Azure Machine Learning은 학습 스크립트를 실행하기 전에 각 작업자에 맞게 TF_CONFIG
변수를 구성하고 설정합니다.
필요한 경우 학습 스크립트에서 TF_CONFIG
에 액세스할 수 있습니다(os.environ['TF_CONFIG']
).
주 작업자 노드에 설정된 TF_CONFIG
예:
TF_CONFIG='{
"cluster": {
"worker": ["host0:2222", "host1:2222"]
},
"task": {"type": "worker", "index": 0},
"environment": "cloud"
}'
TensorFlow 예제
- TensorFlow 예를 실행하기 위한 전체 Notebook은 azureml-examples: Tensorflow와 Horovod를 사용하여 MNIST 데이터 세트에서 분산 MPI로 기본 신경망 학습을 참조하세요.
InfiniBand를 통해 분산된 GPU 학습 가속화
모델을 학습하는 VM 수가 늘어남에 따라 모델 학습에 필요한 시간이 줄어듭니다. 시간 감소는 학습 VM 수에 따라 선형적으로 비례합니다. 예를 들어 1개의 VM에서 모델을 학습하는 데 100초가 걸릴 경우 2개의 VM으로 동일한 모델을 학습하면 이상적으로 50초가 걸립니다. 4개의 VM에서 모델을 학습하려면 25초가 걸립니다.
InfiniBand는 이러한 선형적 확장을 유지하는 데 있어서 중요한 요소일 수 있습니다. InfiniBand는 클러스터에서 노드 간에 지연 시간이 낮은 GPU 간 통신을 가능하게 해줍니다. InfiniBand를 사용하려면 특별한 하드웨어가 필요합니다. 특정 Azure VM 시리즈, 특히 NC, ND, H 시리즈에는 현재 SR-IOV 및 InfiniBand를 지원하는 RDMA 지원 VM이 있습니다. 이러한 VM은 대기 시간이 짧은 고대역폭 InfiniBand 네트워크를 통해 통신하는데, 이는 이더넷 기반 연결보다 훨씬 더 성능이 뛰어납니다. InfiniBand용 SR-IOV는 모든 MPI 라이브러리에 대해 거의 베어 메탈 성능을 구현합니다(MPI는 NVIDIA의 NCCL 소프트웨어를 비롯한 많은 분산 학습 프레임워크 및 도구에서 사용됨). 이러한 SKU는 컴퓨팅 집약적인 GPU 가속 기계 학습 워크로드의 요구 사항을 충족하기 위한 것입니다. 자세한 내용은 SR-IOV를 사용하여 Azure Machine Learning에서 분산 학습 가속화를 참조하세요.
일반적으로 이름에 “r”이 있는 VM SKU에는 필요한 InfiniBand 하드웨어가 있고 “r”이 없는 VM SKU에는 없습니다. (“r”은 원격 직접 메모리 액세스를 나타내는 RDMA에 대한 참조입니다.) 예를 들어 VM SKU Standard_NC24rs_v3
는 InfiniBand를 지원하지만 SKU Standard_NC24s_v3
는 그렇지 않습니다. InfiniBand 기능을 제외하면 이 두 SKU 간의 사양은 거의 동일합니다. 둘 다에 24개 코어, 448GB RAM, 동일한 SKU의 4개 GPU 등이 있습니다. RDMA 및 InfiniBand를 지원하는 컴퓨터 SKU에 대해 자세히 알아보세요.
Warning
이전 세대 컴퓨터 SKU Standard_NC24r
은 RDMA를 지원하지만 InfiniBand에 필요한 SR-IOV 하드웨어를 포함하지 않습니다.
이러한 RDMA 지원, InfiniBand 지원 크기 중 하나의 AmlCompute
클러스터를 만드는 경우 OS 이미지는 InfiniBand가 미리 설치/구성되도록 설정하는 데 필요한 Mellanox OFED 드라이버와 함께 제공됩니다.