다음을 통해 공유


AutoML을 사용하여 회귀

AutoML을 사용하여 최적의 회귀 알고리즘 및 하이퍼 매개 변수 구성을 자동으로 찾아 연속 숫자 values예측합니다.

UI를 사용하여 회귀 실험 Set

다음 단계에서 AutoML UI를 사용하여 회귀 문제를 set 수 있습니다.

  1. 사이드바에서 select실험.

  2. 회귀 카드에서 select학습시작합니다.

    AutoML 실험 구성 페이지가 표시됩니다. 이 페이지에서는 데이터 세트, 문제 유형, 예측할 대상 또는 레이블 column, 실험 실행을 평가하고 점수를 매기는 데 사용할 메트릭, 중지 조건을 설정하는 AutoML 프로세스를 구성합니다.

  3. 컴퓨팅 필드에서 Databricks Runtime ML을 실행하는 클러스터가 select에 있습니다.

  4. 데이터 세트아래에서 select찾아보기.

  5. 원하는 table로 이동하고 Select을 클릭하세요. table schema 나타납니다.

    • Databricks Runtime 10.3 ML 이상에서는학습에 사용할 AutoML을 지정할 수 있습니다. 선택된 예측 대상 column 또는 데이터를 분할하는 시간 column에 대해 remove할 수 없습니다.
    • Databricks Runtime 10.4 LTS ML 이상에서는 드롭다운을 사용하여 Impute에서 선택하여 null 지정할 수 있습니다. 기본적으로 AutoML은 column 형식 및 콘텐츠에 따라 대체 메서드를 선택합니다.

    참고 항목

    기본값이 아닌 대치 메서드를 지정하면 AutoML이 의미 체계 유형 검색을 수행하지 않습니다.

  6. 예측 대상 필드를 클릭합니다. schema에 표시된 columns가 나열된 드롭다운이 나타납니다. 당신이 모델이 예측하기를 원하는 Selectcolumn.

  7. 실험 이름 필드에는 기본 이름이 표시됩니다. 변경하려면 필드에 새 이름을 입력합니다.

다음도 가능합니다.

고급 구성

고급 구성(선택 사항) 섹션을 열어 parameters에 액세스할 수 있습니다.

  • 평가 메트릭은 실행 점수를 매기는 데 사용되는 기본 메트릭입니다.
  • Databricks Runtime 10.4 LTS ML 이상에서는 학습 프레임워크를 고려 대상에서 제외할 수 있습니다. 기본적으로 AutoML은 AutoML 알고리즘에 나열된 프레임워크를 사용하여 모델을 학습시킵니다.
  • 정지 조건을 편집할 수 있습니다. 기본 정지 조건은 다음과 같습니다.
    • 예측 실험의 경우 120분 후에 중지합니다.
    • Databricks Runtime 10.4 LTS ML 이하에서 분류 및 회귀 실험의 경우 60분 후 또는 200번의 시도를 완료한 후 중 더 빠른 시점에 중지합니다. Databricks Runtime 11.0 ML 이상의 경우 시도 횟수는 중지 조건으로 사용되지 않습니다.
    • Databricks Runtime 10.4 LTS ML 이상에서 분류 및 회귀 실험을 위해 AutoML은 조기 중지를 통합합니다. 유효성 검사 메트릭이 더 이상 개선되지 않으면 모델 학습 및 튜닝을 중지합니다.
  • Databricks Runtime 10.4 LTS ML 이상에서는 selecttime column을 사용하여 학습, 유효성 검사 및 테스트를 위한 데이터를 시간순으로 분할할 수 있습니다(분류회귀에 적용됨).
  • Databricks는 데이터 디렉터리 필드를 채웁니다. 이렇게 하면 데이터 세트를 MLflow 아티팩트로 안전하게 저장하는 기본 동작이 트리거됩니다. DBFS 경로를 지정할 수 있지만 이 경우 데이터 세트는 AutoML 실험의 액세스 권한을 상속하지 않습니다.

실험 실행 및 결과 모니터링

AutoML 실험을 시작하려면 AutoML 시작을 클릭합니다. 실험이 실행되기 시작하고 AutoML 학습 페이지가 나타납니다. 실행 tablerefreshRefresh 단추클릭합니다.

실험 진행률 보기

이 페이지에서 다음을 수행할 수 있습니다.

  • 언제든지 실험을 중지합니다.
  • 데이터 탐색 Notebook을 엽니다.
  • 실행을 모니터링합니다.
  • 실행에 대한 실행 페이지로 이동합니다.

Databricks Runtime 10.1 ML 이상을 사용하면 AutoML은 지원되지 않는 column 형식 또는 높은 카디널리티 columns같은 데이터 세트의 잠재적 문제에 대한 경고를 표시합니다.

참고 항목

Databricks는 잠재적인 오류나 문제를 나타내기 위해 최선을 다합니다. 그러나 이는 포괄적이지 않을 수 있으며 검색할 수 있는 문제나 오류를 포착하지 못할 수 있습니다.

데이터 세트에 대한 경고를 보려면 학습 페이지 또는 실험이 완료된 후 실험 페이지에서 경고 탭을 클릭합니다.

AutoML 경고

결과 보기

실험이 완료되면 다음을 수행할 수 있습니다.

  • MLflow로 모델 중 하나를 등록 및 배포합니다.
  • Select 최상의 모델을 위한 전자 필기장을 보고,에서 모델을 생성한 전자 필기장을 검토하고 편집하세요.
  • Select 데이터 탐색 노트북를 확인하여 데이터 탐색 노트북을 엽니다.
  • 실행 table의 실행을 검색하고, 필터링하며, 정렬합니다.
  • 모든 실행에 대한 세부 정보 보기:
    • 평가판 실행에 대한 소스 코드가 포함된 생성된 Notebook은 MLflow 실행을 클릭하여 찾을 수 있습니다. Notebook은 실행 페이지의 아티팩트 섹션에 저장됩니다. 작업 영역 관리자가 아티팩트 다운로드를 사용하도록 설정한 경우 이 Notebook을 다운로드하고 작업 영역으로 가져올 수 있습니다.
    • 실행 결과를 보려면 모델column 또는 시작 시간column클릭합니다. 실행 페이지가 나타나며, 여기에는 시험 실행(parameters, 메트릭 및 태그와 같은)에 대한 정보와 실행에서 생성된 아티팩트, 예를 들어 모델이 포함되어 있습니다. 이 페이지에는 모델로 예측하는 데 사용할 수 있는 코드 조각도 포함되어 있습니다.

나중에 이 AutoML 실험으로 돌아가려면 실험 페이지에서 table에 있는 것을찾으세요. 데이터 탐색 및 학습 Notebook을 포함한 각 AutoML 실험의 결과는 실험을 실행한 사용자의 databricks_automl에 있는 폴더에 저장됩니다.

모델 등록 및 배포

AutoML UI를 사용하여 모델을 등록하고 배포할 수 있습니다.

  1. 모델 등록을 위해 모델column 링크를 Select에서 확인하세요. 실행이 완료되면 기본 메트릭을 기반으로 가장 적합한 모델이 맨 위 행입니다.
  2. 모델 등록 단추 모델 레지스트리모델을 등록합니다.
  3. 사이드바에서 모델 레지스트리로 이동하려면 Select아이콘과모델을 선택하세요.
  4. 모델 table내에서 Select은/는 귀하의 모델 이름입니다.
  5. 등록된 모델 페이지에서 모델 서비스로 모델을 제공할 수 있습니다.

'pandas.core.indexes.numeric'이라는 모듈이 없습니다.

AutoML로 빌드된 모델을 Model Serving으로 제공하는 경우, 다음과 같은 오류가 get 발생할 수 있습니다: No module named 'pandas.core.indexes.numeric.

이는 AutoML과 엔드포인트 환경을 제공하는 모델 간의 호환되지 않는 pandas 버전 때문입니다. add-pandas-dependency.py 스크립트를 실행하여 이 오류를 해결할 수 있습니다. 스크립트는 적절한 requirements.txt 종속성 버전 conda.yaml을 포함하도록 기록된 모델에 대한 pandaspandas==1.5.3을 편집합니다.

  1. 스크립트를 수정하여 모델이 기록된 MLflow 실행 where의 run_id을 포함하십시오.
  2. 모델을 MLflow 모델 레지스트리에 다시 등록합니다.
  3. 새 버전의 MLflow 모델을 제공해 보세요.

다음 단계