AutoML Python API를 사용하여 분류 모델 학습
이 문서에서는 AutoML Python API를 사용하여 AutoML로 모델을 학습하는 방법을 보여 줍니다. 자세한 내용은 AutoML Python API 참조를 참조하세요.
API는 분류, 회귀 및 예측 AutoML 실행을 시작하는 함수를 제공합니다. 각 함수 호출은 일련의 모델을 학습하고 각 모델에 대한 평가판 Notebook을 생성합니다.
AutoML 실험에 대한 요구 사항을 참조하세요.
AutoML API를 사용하여 실험 설정
다음 단계에서는 일반적으로 API를 사용하여 AutoML 실험을 설정하는 방법을 설명합니다.
Notebook을 만들고 Databricks Runtime ML을 실행하는 클러스터에 연결합니다.
기존 데이터 원본에서 사용할 테이블을 식별하거나 DBFS에 데이터 파일을 업로드하고 테이블을 만듭니다.
AutoML 실행을 시작하려면 ,
automl.classify()
또는automl.forecast()
함수를automl.regress()
사용하고 다른 학습 매개 변수와 함께 테이블을 전달합니다. 모든 함수 및 매개 변수를 보려면 AutoML Python API 참조를 참조하세요.참고 항목
이
automl.forecast()
함수는 클래식 컴퓨팅에서 예측하는 데만 사용할 수 있습니다.예시:
# Regression example summary = automl.regress(dataset=train_pdf, target_col="col_to_predict") # Classification example summary = automl.classification(dataset=train_pdf, target_col="col_to_predict") # Forecasting example summary = automl.forecast(dataset=train_pdf, target_col="col_to_predic", time_col="date_col", horizon=horizon, frequency="d", output_database="default")
AutoML 실행이 시작되면 MLflow 실험 URL이 콘솔에 나타납니다. 이 URL을 사용하여 실행 진행 상황을 모니터링합니다. MLflow 실험을 새로 고침하여 완료되는 시도를 확인합니다.
AutoML 실행이 완료된 후:
- 출력 요약의 링크를 사용하여 MLflow 실험 또는 최상의 결과를 생성한 Notebook으로 이동합니다.
- 데이터 탐색 Notebook에 대한 링크를 사용하여 AutoML에 전달된 데이터에 대한 인사이트를 얻습니다. 이 Notebook을 동일한 클러스터에 연결하고 Notebook을 다시 실행하여 결과를 재현하거나 추가 데이터 분석을 수행할 수도 있습니다.
- AutoML 호출에서 반환된 요약 개체를 사용하여 시도에 대한 자세한 내용을 탐색하거나 주어진 시도에서 학습된 모델을 로드합니다. AutoMLSummary 개체에 대해 자세히 알아보세요.
- 평가판에서 생성된 Notebook을 복제하고 동일한 클러스터에 연결하여 Notebook을 다시 실행하여 결과를 재현합니다. 필요한 편집 작업을 수행하고 다시 실행하여 추가 모델을 학습하고 동일한 실험에 기록할 수도 있습니다.
Notebook 가져오기
MLflow 아티팩트로 저장된 Notebook을 가져오려면 databricks.automl.import_notebook
Python API를 사용합니다. 자세한 내용은 Notebook 가져오기를 참조하세요.
모델 등록 및 배포
MLflow 모델 레지스트리에 등록된 모델과 마찬가지로 AutoML 학습 모델을 등록하고 배포할 수 있습니다. MLflow 모델 로그, 로드, 등록 및 배포를 참조하세요.
pandas.core.indexes.numeric
이름의 모듈이 없음
모델 제공과 함께 AutoML을 사용하여 빌드된 모델을 제공하는 경우 No module named pandas.core.indexes.numeric
과 같은 오류가 발생할 수 있습니다.
이는 AutoML과 엔드포인트 환경을 제공하는 모델 간의 호환되지 않는 pandas
버전 때문입니다. 오류를 해결하려면:
- add-pandas-dependency.py 스크립트를 다운로드합니다.
스크립트는 적절한
requirements.txt
종속성 버전conda.yaml
을 포함하도록 기록된 모델에 대한pandas
및pandas==1.5.3
을 편집합니다. - 모델이 기록된 MLflow 실행의
run_id
을 포함하도록 스크립트를 수정합니다. - MLflow 모델 레지스트리에 모델을 다시 등록합니다.
- 새 버전의 MLflow 모델을 제공해 보세요.
Notebook 예제
다음 Notebook에서는 AutoML을 사용하여 분류를 수행하는 방법을 보여줍니다.