다음을 통해 공유


Azure Machine Learning 스튜디오와 구성 요소를 사용하여 기계 학습 파이프라인 만들기 및 실행

적용 대상: Azure CLI ml 확장 v2(현재)

이 문서에서는 Azure Machine Learning 스튜디오 및 구성 요소를 사용하여 기계 학습 파이프라인을 만들고 실행하는 방법을 알아봅니다. 구성 요소를 사용하지 않고 파이프라인을 만들 수 있지만 구성 요소는 더 나은 유연성과 재사용을 제공합니다. Azure Machine Learning Pipelines는 YAML에서 정의되고 CLI에서 실행되거나 Python에서 작성되거나 끌어서 놓기 UI를 사용하여 Azure Machine Learning 스튜디오 디자이너에서 구성될 수 있습니다. 이 문서는 Azure Machine Learning 스튜디오 디자이너 UI에 중점을 둡니다.

필수 조건

참고 항목

Designer는 두 가지 형식의 구성 요소, 즉 기존의 미리 빌드된 구성 요소(v1)와 사용자 지정 구성 요소(v2)를 지원합니다. 이 두 가지 형식의 구성 요소는 호환되지 않습니다.

클래식 미리 빌드된 구성 요소는 주로 데이터 처리와 회귀 및 분류와 같은 기존 기계 학습 작업을 위해 미리 빌드된 구성 요소를 제공합니다. 클래식 미리 빌드된 구성 요소는 계속 지원되지만 새 구성 요소는 추가되지 않습니다. 또한 클래식 미리 빌드된(v1) 구성 요소의 배포는 관리되는 온라인 엔드포인트(v2)를 지원하지 않습니다.

사용자 지정 구성 요소를 사용하면 고유의 코드를 구성 요소로 래핑할 수 있습니다. 작업 영역 전체에서 구성 요소를 공유하고 스튜디오, CLI v2 및 SDK v2 인터페이스 전체에서 원활한 작성을 지원합니다.

새 프로젝트의 경우 AzureML V2와 호환되고 계속해서 새로운 업데이트를 받을 수 있는 사용자 지정 구성 요소를 사용하는 것이 좋습니다.

이 문서는 사용자 지정 구성 요소에 적용됩니다.

작업 영역에 구성 요소 등록

UI의 구성 요소를 사용하여 파이프라인을 빌드하려면 먼저 작업 영역에 구성 요소를 등록해야 합니다. UI, CLI 또는 SDK를 사용하여 작업 영역에 구성 요소를 등록할 수 있으므로 작업 영역 내에서 구성 요소를 공유하고 다시 사용할 수 있습니다. 등록된 구성 요소는 자동 버전 관리를 지원하므로 구성 요소를 업데이트하되 이전 버전이 필요한 파이프라인이 계속 작동하도록 보장할 수 있습니다.

다음 예에서는 UI를 사용하여 구성 요소를 등록하며, 구성 요소 원본 파일azureml-examples 리포지토리cli/jobs/pipelines-with-components/basics/1b_e2e_registered_components 디렉터리에 있습니다. 먼저 리포지토리를 로컬로 복제해야 합니다.

  1. Azure Machine Learning 작업 영역에서 구성 요소 페이지로 이동하여 새 구성 요소를 선택합니다. 두 스타일 페이지 중 하나가 표시됩니다.

    구성 요소 페이지의 등록 항목 단추를 보여 주는 스크린샷.

    보관을 포함할 수 있는 구성 요소 페이지의 등록 항목 단추를 보여 주는 스크린샷.

이 예제에서는 1b_e2e_registered_components 디렉터리에서 사용합니다.train.yml YAML 파일은 이 구성 요소의 이름, 형식, 입출력을 포함한 인터페이스, 코드, 환경 및 명령을 정의합니다. 이 구성 요소 train.py의 코드는 이 구성 요소의 실행 논리를 설명하는 ./train_src 폴더 아래에 있습니다. 구성 요소 스키마에 대해 자세히 알아보려면 명령 구성 요소 YAML 스키마 참조를 확인합니다.

참고 항목

UI에 구성 요소를 등록할 때 구성 요소 YAML 파일에 정의된 code는 YAML 파일이 있는 현재 폴더 또는 하위 폴더만 가리킬 수 있습니다. 즉, UI가 부모 디렉터리를 인식할 수 없으므로 code에 대해 ../를 지정할 수 없습니다. additional_includes는 현재 또는 하위 폴더만 가리킬 수 있습니다. 현재 UI는 command 형식의 구성 요소 등록만 지원합니다.

  1. 폴더에서 업로드를 선택하고 업로드할 1b_e2e_registered_components 폴더를 선택합니다. 드롭다운 목록에서 train.yml을 선택합니다.

로컬 폴더에서의 업로드를 보여 주는 스크린샷.

  1. 하단의 다음을 선택하면 해당 구성 요소의 세부 정보를 확인할 수 있습니다. 확인했으면 만들기를 선택하여 등록 과정을 완료합니다.

  2. score.ymleval.yml도 사용하여 Score 및 Eval 구성 요소를 등록하려면 이전 단계를 반복합니다.

  3. 세 가지 구성 요소를 성공적으로 등록하면 스튜디오 UI에서 구성 요소를 볼 수 있습니다.

구성 요소 페이지에 등록된 구성 요소를 보여 주는 스크린샷

등록된 구성 요소를 사용하여 파이프라인 만들기

  1. 디자이너에서 새 파이프라인을 만듭니다. 사용자 지정 옵션을 선택해야 합니다.

    디자이너 홈페이지에서 새 파이프라인 만들기를 보여 주는 스크린샷

  2. 자동 생성된 이름 옆에 있는 연필 아이콘을 선택하여 파이프라인에 의미 있는 이름을 지정합니다.

    파이프라인 이름 변경을 보여 주는 스크린샷.

  3. 디자이너 자산 라이브러리에서 데이터, 모델구성 요소 탭을수 있습니다. 구성 요소 탭으로 전환하면 이전 섹션에서 등록된 구성 요소를 볼 수 있습니다. 구성 요소가 너무 많으면 구성 요소 이름으로 검색할 수 있습니다.

    자산 라이브러리에 등록된 구성 요소를 보여 주는 스크린샷

    이전 섹션에 등록된 학습, 점수eval 구성 요소를 찾은 다음 캔버스에 끌어서 놓습니다. 기본적으로 구성 요소의 기본 버전을 사용합니다. 특정 버전으로 변경하려면 구성 요소를 두 번 클릭하여 구성 요소 창을 엽니다.

    구성 요소 버전 변경을 보여 주는 스크린샷

    이 예제에서는 데이터 폴더의 샘플 데이터를 사용합니다. 디자이너 자산 라이브러리 -> 데이터 탭에서 추가 아이콘을 선택하고, Type = Folder(uri_folder)로 설정한 후 마법사에 따라 데이터를 등록하여 작업 영역에 데이터를 등록합니다. 학습 구성 요소 정의맞게 데이터 형식을 uri_folder 합니다.

    데이터 추가를 보여 주는 스크린샷.

    그런 다음 데이터를 캔버스에 끌어서 놓습니다. 이제 파이프라인 모양은 다음 스크린샷과 같아야 합니다.

    파이프라인 초안을 보여 주는 스크린샷.

  4. 캔버스에서 연결을 끌어 데이터와 구성 요소를 연결합니다.

    파이프라인 연결을 보여 주는 GIF

  5. 구성 요소 하나를 두 번 클릭하면 구성 요소를 구성할 수 있는 오른쪽 창이 표시됩니다.

    구성 요소 매개 변수 설정을 보여 주는 스크린샷

    숫자, 정수, 문자열 및 부울과 같은 기본 형식 입력이 있는 구성 요소의 경우 입력 섹션의 구성 요소 세부 창 에서 이러한 입력 값을 변경할 수 있습니다.

    오른쪽 창에서 출력 설정(구성 요소의 출력을 저장할 위치) 및 실행 설정(이 구성 요소를 실행할 컴퓨팅 대상)을 변경할 수도 있습니다.

    이제 train 구성 요소의 max_epocs 입력을 파이프라인 수준 입력으로 승격해 보겠습니다. 이렇게 하면 파이프라인을 제출하기 전에 매번 이 입력에 다른 값을 할당할 수 있습니다.

    구성 요소 입력을 파이프라인 입력으로 승격하는 방법을 보여 주는 스크린샷.

참고 항목

사용자 지정 구성 요소와 디자이너 클래식 미리 빌드 구성 요소는 함께 사용할 수 없습니다.

파이프라인 제출

  1. 구성 및 제출을 선택하여 파이프라인을 제출합니다.

    구성 및 제출 단추를 보여 주는 스크린샷.

  2. 그러면 단계별 마법사가 표시됩니다. 마법사에 따라 파이프라인 작업을 제출합니다.

제출 마법사를 보여 주는 스크린샷.

기본 사항 단계에서는 실험, 작업 표시 이름, 작업 설명 등을 구성할 수 있습니다.

입력 및 출력 단계에서는 파이프라인 수준으로 승격되는 입력/출력을 구성할 수 있습니다. 이전 단계에서는 train 구성 요소의 max_epocs를 파이프라인 입력으로 승격했으므로 여기에서 값을 확인하고 max_epocs에 할당할 수 있어야 합니다.

런타임 설정에서 파이프라인의 기본 데이터 저장소와 기본 컴퓨팅을 구성할 수 있습니다. 파이프라인의 모든 구성 요소에 대한 기본 데이터 저장소/컴퓨팅입니다. 그러나 구성 요소에 대해 다른 컴퓨팅 또는 데이터 저장소를 명시적으로 설정하는 경우 시스템은 구성 요소 수준 설정을 따릅니다. 그렇지 않으면 파이프라인 기본값을 사용합니다.

검토 + 제출 단계는 제출하기 전에 모든 구성을 검토하는 마지막 단계입니다. 파이프라인을 제출하면 마법사는 마지막 구성을 기억합니다.

파이프라인 작업을 제출하면 작업 세부 정보에 대한 링크가 포함된 메시지가 상단에 표시됩니다. 이 링크를 선택하여 작업 세부 정보를 검토할 수 있습니다.

제출 메시지를 보여 주는 스크린샷.

파이프라인 작업에서 ID 지정

파이프라인 작업을 제출할 때 Run settings 아래의 데이터에 액세스하기 위한 ID를 지정할 수 있습니다. 기본 ID는 ID를 사용하지 않은 AMLToken이지만, UserIdentityManaged 모두 지원됩니다. UserIdentity의 경우 작업 제출자의 ID를 사용하여 입력 데이터에 액세스하고 결과를 출력 폴더에 기록합니다. Managed를 지정하면 시스템은 관리 ID를 사용하여 입력 데이터에 액세스하고 결과를 출력 폴더에 씁니다.

파이프라인 작업에서 ID를 설정하는 방법을 보여 주는 스크린샷.

다음 단계