Azure Machine Learning CLI와 구성 요소를 사용하여 기계 학습 파이프라인 만들기 및 실행
적용 대상: Azure CLI ml 확장 v2(현재)
이 문서에서는 Azure CLI 및 구성 요소를 사용하여 기계 학습 파이프라인을 만들고 실행하는 방법을 알아봅니다. 구성 요소를 사용하지 않고 파이프라인을 만들 수 있지만 구성 요소는 최대의 유연성과 재사용을 제공합니다. Azure Machine Learning Pipelines는 YAML에서 정의되고 CLI에서 실행되거나 Python에서 작성되거나 끌어서 놓기 UI를 사용하여 Azure Machine Learning 스튜디오 디자이너에서 구성될 수 있습니다. 이 문서에서는 CLI에 대해 집중적으로 설명 합니다.
필수 조건
Azure 구독이 없는 경우 시작하기 전에 체험 계정을 만듭니다. Azure Machine Learning 평가판 또는 유료 버전을 사용해 보세요.
Azure Machine Learning 작업 영역 작업 영역 리소스 만들기
다음과 같이 예제 리포지토리를 복제합니다.
git clone https://github.com/Azure/azureml-examples --depth 1 cd azureml-examples/cli/jobs/pipelines-with-components/basics
추천 참고 자료
구성 요소를 사용하여 첫 번째 파이프라인 만들기
구성 요소 예제를 사용하여 첫 번째 파이프라인을 만들어 보겠습니다. 이 섹션은 구체적인 예를 통해 Azure Machine Learning에서 파이프라인 및 구성 요소가 어떻게 보이는지 초기 인상을 제공하는 것을 목표로 합니다.
azureml-examples
리포지토리의 cli/jobs/pipelines-with-components/basics
디렉터리에서 3b_pipeline_with_data
하위 디렉터리로 이동합니다. 이 디렉터리에는 세 가지 유형의 파일이 있습니다. 이러한 파일은 사용자 고유의 파이프라인을 빌드할 때 만들어야 하는 파일입니다.
pipeline.yml: 이 YAML 파일은 기계 학습 파이프라인을 정의합니다. 이 YAML 파일은 전체 기계 학습 작업을 다단계 워크플로로 분할하는 방법을 설명합니다. 예를 들어 기록 데이터를 사용하여 판매 예측 모델을 학습시키는 간단한 기계 학습 작업을 고려할 때 데이터 처리, 모델 학습 및 모델 평가 단계가 포함된 순차적 워크플로를 빌드할 수 있습니다. 각 단계는 잘 정의된 인터페이스를 가지고 있으며 독립적으로 개발, 테스트 및 최적화할 수 있는 구성 요소입니다. 또한 파이프라인 YAML은 자식 단계가 파이프라인의 다른 단계에 연결하는 방법을 정의합니다. 예를 들어 모델 학습 단계에서는 모델 파일을 생성하고 모델 파일은 모델 평가 단계로 전달됩니다.
component.yml: 이 YAML 파일은 구성 요소를 정의합니다. 이 파일은 다음 정보를 패키징합니다.
- 메타데이터: 이름, 표시 이름, 버전, 설명, 형식 등. 메타데이터는 구성 요소를 설명하고 관리하는 데 도움이 됩니다.
- 인터페이스: 입력 및 출력. 예를 들어, 모델 학습 구성 요소는 학습 데이터와 epoch 수를 입력으로 사용하고 학습된 모델 파일을 출력으로 생성합니다. 인터페이스가 정의되면 다른 팀이 독립적으로 구성 요소를 개발하고 테스트할 수 있습니다.
- 명령, 코드 및 환경: 구성 요소를 실행하는 명령, 코드 및 환경입니다. 명령은 구성 요소를 실행하는 셸 명령입니다. 코드는 일반적으로 소스 코드 디렉터리를 참조합니다. 환경은 Azure Machine Learning 환경(큐레이팅 또는 고객 만들기), docker 이미지 또는 conda 환경일 수 있습니다.
component_src: 특정 구성 요소의 소스 코드 디렉터리입니다. 여기에는 구성 요소에서 실행되는 소스 코드가 포함되어 있습니다. 원하는 언어(Python, R 등)를 사용할 수 있습니다. 코드는 셸 명령을 통해 실행해야 합니다. 소스 코드는 셸 명령줄에서 몇 가지 입력을 받아서 이 단계가 실행되는 방법을 제어할 수 있습니다. 예를 들어 학습 단계에서는 학습 데이터, 학습 속도, Epoch 수를 사용하여 학습 프로세스를 제어할 수 있습니다. 셸 명령의 인수는 입력 및 출력을 코드에 전달하는 데 사용됩니다.
이제 3b_pipeline_with_data
예제를 사용하여 파이프라인을 만들어 보겠습니다. 각 파일의 자세한 의미는 다음 섹션에서 설명하겠습니다.
먼저 다음 명령을 사용하여 사용 가능한 컴퓨팅 리소스를 나열합니다.
az ml compute list
없는 경우 다음을 실행하여 cpu-cluster
라는 클러스터를 만듭니다.
참고 항목
서버리스 컴퓨팅을 사용하려면 이 단계를 건너뛰세요.
az ml compute create -n cpu-cluster --type amlcompute --min-instances 0 --max-instances 10
이제 다음 명령을 사용하여 pipeline.yml 파일에 정의된 파이프라인 작업을 만듭니다. 컴퓨팅 대상은 Pipeline.yml 파일에서 azureml:cpu-cluster
로 참조됩니다. 컴퓨팅 대상이 다른 이름을 사용하는 경우 pipeline.yml 파일에서 업데이트해야 합니다.
az ml job create --file pipeline.yml
다음을 포함하여 파이프라인 작업에 대한 정보가 있는 JSON 사전을 받게 됩니다.
키 | 설명 |
---|---|
name |
작업의 GUID 기반 이름입니다. |
experiment_name |
Studio에서 작업이 구성되는 이름입니다. |
services.Studio.endpoint |
파이프라인 작업을 모니터링하고 검토하기 위한 URL입니다. |
status |
작업의 상태입니다. 지금은 Preparing 상태일 가능성이 높습니다. |
services.Studio.endpoint
URL을 열어 파이프라인의 그래프 시각화를 확인합니다.
파이프라인 정의 YAML의 이해
3b_pipeline_with_data/pipeline.yml 파일의 파이프라인 정의를 살펴보겠습니다.
참고 항목
서버리스 컴퓨팅을 사용하려면 이 파일에서 default_compute: azureml:cpu-cluster
를 default_compute: azureml:serverless
로 바꿉니다.
$schema: https://azuremlschemas.azureedge.net/latest/pipelineJob.schema.json
type: pipeline
display_name: 3b_pipeline_with_data
description: Pipeline with 3 component jobs with data dependencies
settings:
default_compute: azureml:cpu-cluster
outputs:
final_pipeline_output:
mode: rw_mount
jobs:
component_a:
type: command
component: ./componentA.yml
inputs:
component_a_input:
type: uri_folder
path: ./data
outputs:
component_a_output:
mode: rw_mount
component_b:
type: command
component: ./componentB.yml
inputs:
component_b_input: ${{parent.jobs.component_a.outputs.component_a_output}}
outputs:
component_b_output:
mode: rw_mount
component_c:
type: command
component: ./componentC.yml
inputs:
component_c_input: ${{parent.jobs.component_b.outputs.component_b_output}}
outputs:
component_c_output: ${{parent.outputs.final_pipeline_output}}
# mode: upload
표에서는 가장 많이 사용되는 파이프라인 YAML 스키마의 필드를 설명합니다. 자세한 내용은 전체 파이프라인 YAML 스키마를 참조하세요.
key | description |
---|---|
type | 필수입니다. 작업 형식은 파이프라인 작업에 대해 pipeline 이어야 합니다. |
display_name | 스튜디오 UI에서 파이프라인 작업의 표시 이름입니다. Studio UI에서 편집할 수 있습니다. 작업 영역의 모든 작업에서 고유할 필요는 없습니다. |
jobs | 필수입니다. 파이프라인 내에서 단계로 실행할 개별 작업 집합의 사전입니다. 이러한 작업은 부모 파이프라인 작업의 자식 작업으로 간주됩니다. 이 릴리스의 경우 파이프라인에서 지원되는 작업 유형은 command 및 sweep 입니다. |
inputs | 파이프라인 작업에 대한 입력의 사전입니다. 키는 작업의 컨텍스트 내에서 입력에 대한 이름이고 값은 입력 값입니다. 이러한 파이프라인 입력은 ${{ parent.inputs.<input_name> }} 식을 사용하여 파이프라인에서 개별 단계 작업의 입력으로 참조할 수 있습니다. |
outputs | 파이프라인 작업의 출력 구성 사전입니다. 키는 작업의 컨텍스트 내에서 출력에 대한 이름이고 값은 출력 구성입니다. 이러한 파이프라인 출력은 ${{ parents.outputs.<output_name> }} 식을 사용하여 파이프라인에서 개별 단계 작업의 출력으로 참조할 수 있습니다. |
3b_pipeline_with_data 예제에서는 세 단계 파이프라인을 만들었습니다.
- 세 단계는
jobs
에 정의되어 있습니다. 세 단계 유형은 모두 명령 작업입니다. 각 단계의 정의는 해당하는component.yml
파일에 있습니다. 3b_pipeline_with_data 디렉터리에서 구성 요소 YAML 파일을 볼 수 있습니다. componentA.yml은 다음 섹션에서 설명하겠습니다. - 이 파이프라인에는 대부분의 실제 파이프라인에서 흔히 볼 수 있는 데이터 종속성이 있습니다. Component_a는
./data
(줄 17-20) 아래의 로컬 폴더에서 데이터 입력을 가져와서 해당 출력을 componentB(줄 29)에 전달합니다. Component_a의 출력은${{parent.jobs.component_a.outputs.component_a_output}}
으로 참조할 수 있습니다. compute
는 이 파이프라인의 기본 컴퓨팅을 정의합니다.jobs
아래의 구성 요소가 이 구성 요소에 대해 다른 컴퓨팅을 정의하는 경우 시스템은 구성 요소별 설정을 따릅니다.
파이프라인에서 데이터 읽기 및 쓰기
일반적인 시나리오 중 하나는 파이프라인에서 데이터를 읽고 쓰는 것입니다. Azure Machine Learning에서는 동일한 스키마를 사용하여 모든 형식의 작업(파이프라인 작업, 명령 작업 및 스윕 작업)에 대해 데이터를 읽고 씁니다. 다음은 일반적인 시나리오에 데이터를 사용하는 파이프라인 작업 예제입니다.
구성 요소 정의 YAML의 이해
이번에는 구성 요소 정의 YAML을 이해하기 위해 componentA.yml 예제를 살펴보겠습니다.
$schema: https://azuremlschemas.azureedge.net/latest/commandComponent.schema.json
type: command
name: component_a
display_name: componentA
version: 1
inputs:
component_a_input:
type: uri_folder
outputs:
component_a_output:
type: uri_folder
code: ./componentA_src
environment:
image: python
command: >-
python hello.py --componentA_input ${{inputs.component_a_input}} --componentA_output ${{outputs.component_a_output}}
구성 요소 YAML에서 가장 일반적으로 사용되는 스키마가 표에 설명되어 있습니다. 자세한 내용은 전체 구성 요소 YAML 스키마를 참조하세요.
key | description |
---|---|
name | 필수입니다. 구성 요소의 이름입니다. Azure Machine Learning 작업 영역에서 고유해야 합니다. 소문자로 시작해야 합니다. 소문자, 숫자 및 밑줄(_)을 허용합니다. 최대 길이는 255자입니다. |
display_name | 스튜디오 UI의 구성 요소 표시 이름입니다. 작업 영역 내에서 고유하지 않을 수 있습니다. |
command | 필수 실행할 명령입니다. |
코드 | 업로드하여 구성 요소에 사용할 소스 코드 디렉터리의 로컬 경로입니다. |
environment | 필수입니다. 구성 요소를 실행하는 데 사용되는 환경입니다. |
inputs | 구성 요소 입력의 사전입니다. 키는 구성 요소의 컨텍스트 내에 있는 입력의 이름이며 값은 구성 요소 입력 정의입니다. ${{ inputs.<input_name> }} 식을 사용하여 입력을 명령에서 참조할 수 있습니다. |
outputs | 구성 요소 출력의 사전입니다. 키는 구성 요소의 컨텍스트 내에 있는 출력의 이름이며 값은 구성 요소 출력 정의입니다. ${{ outputs.<output_name> }} 식을 사용하여 출력을 명령에서 참조할 수 있습니다. |
is_deterministic | 구성 요소 입력이 변경되지 않은 경우 이전 작업의 결과를 재사용할지 여부를 나타냅니다. 기본값은 true 이며 기본적으로 다시 사용이라고도 합니다. false 로 설정된 경우 일반적인 시나리오는 클라우드 스토리지 또는 URL에서 데이터를 강제로 다시 로드하는 것입니다. |
3b_pipeline_with_data/componentA.yml 예제에서 componentA에는 부모 파이프라인의 다른 단계에 연결할 수 있는 데이터 입력 하나와 데이터 출력 하나가 있습니다. 구성 요소 YAML의 code
섹션 아래에 있는 모든 파일은 파이프라인 작업을 제출할 때 Azure Machine Learning에 업로드됩니다. 이 예제에서는 ./componentA_src
의 파일이 업로드됩니다(componentA.yml의 줄 16). Studio UI에서 업로드된 소스 코드를 볼 수 있습니다. 다음 스크린샷과 같이 ComponentA 단계를 두 번 선택하고 [스냅샷] 탭으로 이동합니다. 간단한 인쇄를 수행하고 현재 날짜/시간을 componentA_output
경로에 쓰는 hello-world 스크립트를 볼 수 있습니다. 구성 요소는 명령줄 인수를 통해 입력 및 출력을 가져오고, 이러한 입력 및 출력은 hello.py에서 argparse
를 사용하여 처리됩니다.
입력 및 출력
입력 및 출력은 구성 요소의 인터페이스를 정의합니다. 입력 및 출력은 리터럴 값(string
, number
, integer
또는 boolean
형식) 또는 입력 스키마를 포함하는 개체입니다.
개체 입력(uri_file
, uri_folder
, mltable
, mlflow_model
, custom_model
)은 부모 파이프라인 작업의 다른 단계에 연결하여 데이터/모델을 다른 단계로 전달할 수 있습니다. 파이프라인 그래프에서 개체 형식 입력은 연결점으로 렌더링됩니다.
리터럴 값 입력(string
, number
, integer
, boolean
)은 런타임에 구성 요소로 전달할 수 있는 매개 변수입니다. default
필드 아래에 리터럴 입력의 기본값을 추가할 수 있습니다. number
및 integer
형식의 경우 min
및 max
필드를 사용하여 허용되는 최솟값 및 최댓값을 추가할 수도 있습니다. 입력 값이 최솟값과 최댓값을 초과하면 파이프라인의 유효성이 검사에 실패합니다. 시간을 절약하기 위해 유효성 검사는 파이프라인 작업을 제출하기 전에 수행됩니다. 유효성 검사는 CLI, Python SDK 및 디자이너 UI에 대해 작동합니다. 다음 스크린샷은 디자이너 UI의 유효성 검사 예제를 보여줍니다. 마찬가지로 enum
필드에서 허용되는 값을 정의할 수 있습니다.
구성 요소에 입력을 추가하려면 다음 세 위치를 편집해야 합니다.
- 구성 요소 YAML의
inputs
필드 - 구성 요소 YAML의
command
필드. - 명령줄 입력을 처리하는 구성 요소 소스 코드를 편집해야 합니다. 이전 스크린샷의 녹색 상자에 표시됩니다.
입출력에 대해 자세히 알아보려면 구성 요소 및 파이프라인의 입출력 관리를 참조하세요.
환경
환경은 구성 요소를 실행할 환경을 정의합니다. Azure Machine Learning 환경(큐레이팅 또는 사용자 지정 등록), docker 이미지 또는 conda 환경일 수 있습니다. 다음 예를 참조하세요.
- Azure Machine Learning 등록 환경 자산.
azureml:<environment-name>:<environment-version>
구문에 따라 구성 요소에서 참조됩니다. - 퍼블릭 docker 이미지
- conda 파일 Conda 파일은 기본 이미지와 함께 사용해야 합니다.
재사용 및 공유할 구성 요소 등록
일부 구성 요소는 특정 파이프라인에만 관련되지만 구성 요소의 실제 이점은 재사용 및 공유에서 비롯됩니다. Machine Learning 작업 영역에 구성 요소를 등록하여 재사용할 수 있도록 합니다. 등록된 구성 요소는 자동 버전 관리를 지원하므로 구성 요소를 업데이트하되 이전 버전이 필요한 파이프라인이 계속 작동하도록 보장할 수 있습니다.
azureml-examples 리포지토리에서 cli/jobs/pipelines-with-components/basics/1b_e2e_registered_components
디렉터리로 이동합니다.
구성 요소를 등록하려면 az ml component create
명령을 사용합니다.
az ml component create --file train.yml
az ml component create --file score.yml
az ml component create --file eval.yml
이러한 명령 실행이 완료된 후에는 Studio의 자산 -> 구성 요소에서 구성 요소를 볼 수 있습니다.
구성 요소를 선택합니다. 각 버전의 구성 요소에 대한 자세한 정보가 표시됩니다.
세부 정보 탭에는 이름, 만든 사람, 버전 등 구성 요소의 기본 정보가 표시됩니다. 태그 및 설명에 대한 편집 가능한 필드가 표시됩니다. 태그를 사용하여 빠른 검색 키워드를 추가할 수 있습니다. 설명 필드는 Markdown 형식을 지원하며, 구성 요소의 기능 및 기본 사용을 설명하는 데 사용해야 합니다.
작업 탭에는 이 구성 요소를 사용하는 모든 작업의 기록이 표시됩니다.
파이프라인 작업 YAML 파일에서 등록된 구성 요소 사용
1b_e2e_registered_components
를 사용하여 파이프라인 YAML에서 등록된 구성 요소를 사용하는 방법을 시연하겠습니다. 1b_e2e_registered_components
디렉터리로 이동하여 pipeline.yml
파일을 엽니다. inputs
및 outputs
필드의 키 및 값은 앞에서 설명한 키 및 값과 비슷합니다. 유일하게 중요한 차이점은 jobs.<JOB_NAME>.component
항목에 있는 component
필드의 값입니다. component
값의 형식은 azureml:<COMPONENT_NAME>:<COMPONENT_VERSION>
입니다. 예를 들어 train-job
정의는 등록된 구성 요소 my_train
의 최신 버전을 사용하도록 지정합니다.
type: command
component: azureml:my_train@latest
inputs:
training_data:
type: uri_folder
path: ./data
max_epocs: ${{parent.inputs.pipeline_job_training_max_epocs}}
learning_rate: ${{parent.inputs.pipeline_job_training_learning_rate}}
learning_rate_schedule: ${{parent.inputs.pipeline_job_learning_rate_schedule}}
outputs:
model_output: ${{parent.outputs.pipeline_job_trained_model}}
services:
my_vscode:
구성 요소 관리
CLI(v2)를 사용하여 구성 요소 세부 정보를 확인하고 구성 요소를 관리할 수 있습니다. az ml component -h
를 사용하여 구성 요소 명령에 대한 자세한 지침을 얻습니다. 다음 표에는 사용 가능한 모든 명령이 나열되어 있습니다. Azure CLI 참조에서 더 많은 예제를 확인하세요.
명령 | description |
---|---|
az ml component create |
구성 요소 만들기 |
az ml component list |
작업 영역의 구성 요소 나열 |
az ml component show |
구성 요소에 대한 세부 정보 표시 |
az ml component update |
구성 요소 업데이트 일부 필드(description, display_name)만 업데이트 지원 |
az ml component archive |
구성 요소 컨테이너 보관 |
az ml component restore |
보관된 구성 요소 복원 |
다음 단계
- CLI v2 구성 요소 예제 사용해 보기