AutoML Python API 참조
이 문서에서는 AutoML 실행을 분류, 회귀 및 예측하는 방법을 제공하는 AutoML Python API에 대해 설명합니다. 각 메서드 호출은 일련의 모델을 학습하고 각 모델에 대한 평가판 Notebook을 생성합니다.
로우코드 UI 옵션을 포함한 AutoML에 대한 자세한 내용은 AutoML이란?을 참조하세요.
분류
databricks.automl.classify
메서드는 분류 모델을 학습시키기 위해 AutoML 실행을 구성합니다.
참고 항목
max_trials
매개 변수는 Databricks Runtime 10.4 ML에서 더 이상 사용되지 않으며 Databricks Runtime 11.0 ML 이상에서는 지원되지 않습니다. timeout_minutes
를 사용하여 AutoML 실행 기간을 제어합니다.
databricks.automl.classify(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "f1",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
pos_label: Optional[Union[int, bool, str]] = None, # <DBR> 11.1 ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None # <DBR> 15.4 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Classify 매개 변수
매개 변수 이름 | Type | 설명 |
---|---|---|
dataset |
str , pandas.DataFrame , pyspark.DataFrame pyspark.sql.DataFrame |
학습 기능과 대상이 포함된 입력 테이블 이름 또는 DataFrame입니다. 테이블 이름은 “<database_name>.<table_name>” 또는 Unity 카탈로그가 아닌 테이블의 경우 “<schema_name>.<table_name>” 형식일 수 있습니다. |
target_col |
str |
대상 레이블의 열 이름입니다. |
primary_metric |
str |
모델 성능을 평가하고 순위를 지정하는 데 사용되는 메트릭입니다. 회귀에 지원되는 메트릭: "r2"(기본값), "mae", "rmse", "mse" 분류에 지원되는 메트릭: "f1"(기본값), "log_loss", "precision", "accuracy", "roc_auc" |
data_dir |
str 형식의 dbfs:/<folder-name> |
선택 사항. 학습 데이터 세트를 저장하는 데 사용되는 DBFS 경로입니다. 이 경로는 드라이버 및 작업자 노드 모두에 표시됩니다. Databricks는 AutoML이 학습 데이터 세트를 MLflow 아티팩트로 저장할 수 있도록 이 필드를 비워 두는 것을 권장합니다. 사용자 지정 경로가 지정된 경우 데이터 세트는 AutoML 실험의 액세스 권한을 상속하지 않습니다. |
experiment_dir |
str |
선택 사항. 생성된 Notebooks 및 실험을 저장할 작업 영역의 디렉터리 경로입니다. 기본값: /Users/<username>/databricks_automl/ |
experiment_name |
str |
선택 사항. AutoML에서 만드는 MLflow 실험의 이름입니다. 기본값: 이름이 자동으로 생성됩니다. |
exclude_cols |
List[str] |
선택 사항. AutoML 계산 중에 무시할 열 목록입니다. 기본값: [] |
exclude_frameworks |
List[str] |
선택 사항. AutoML이 모델을 개발할 때 고려해서는 안 되는 알고리즘 프레임워크 목록입니다. 가능한 값: 빈 목록 또는 "sklearn", "lightgbm", "xgboost" 중 하나 이상입니다. 기본값: [](모든 프레임워크가 고려됨) |
feature_store_lookups |
List[Dict] |
선택 사항. 데이터 보강을 위한 Feature Store의 기능을 나타내는 사전 목록입니다. 각 사전의 유효한 키: - table_name (str): 필수. 기능 테이블의 이름입니다.- lookup_key (list 또는 str): 필수. dataset 매개변수로 전달된 데이터와 기능 테이블을 조인할 때 키로 사용할 열 이름입니다. 열 이름의 순서는 기능 테이블의 기본 키 순서와 일치해야 합니다.- timestamp_lookup_key (str): 지정된 테이블이 시계열 기능 테이블인 경우 필수입니다. dataset 매개 변수에 전달된 데이터를 사용하여 기능 테이블에서 지정 시간 조회를 수행할 때 사용할 열 이름입니다.기본값: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
선택 사항. 각 키는 열 이름이고 각 값은 대치 전략을 설명하는 사전 또는 문자열인 사전입니다. 문자열로 지정된 경우 값은 "mean", "median" 또는 "most_frequent" 중 하나여야 합니다. 알려진 값으로 대치하려면 값을 사전({"strategy": "constant", "fill_value": <desired value>} )으로 지정합니다. 문자열 옵션을 사전으로 지정할 수도 있습니다(예: {"strategy": "mean"} ).열에 대치 전략이 제공되지 않으면 AutoML은 열 형식과 콘텐츠에 따라 기본 전략을 선택합니다. 기본값이 아닌 대치 메서드를 지정하면 AutoML이 의미 체계 유형 검색을 수행하지 않습니다. 기본값: {} |
pos_label |
Union[int, bool, str] |
(분류만 해당) 양수 클래스입니다. 정밀도 및 재현율과 같은 메트릭을 계산하는 데 유용합니다. 이진 분류 문제에 대해서만 지정해야 합니다. |
time_col |
str |
Databricks Runtime 10.1 ML 이상에서 사용할 수 있습니다. 선택 사항. 시간 열의 이름입니다. 제공되는 경우 AutoML은 가장 이른 포인트를 학습 데이터로 사용하고 최신 포인트를 테스트 집합으로 사용하여 데이터 세트를 시간순으로 학습, 유효성 검사 및 테스트 집합으로 분할하려고 시도합니다. 허용되는 열 유형은 타임스탬프와 정수입니다. Databricks Runtime 10.2 ML 이상에서는 문자열 열도 지원됩니다. 열 유형이 문자열인 경우 AutoML은 의미 체계 검색을 사용하여 이를 타임스탬프로 변환하려고 시도합니다. 변환에 실패하면 AutoML 실행이 실패합니다. |
split_col |
str |
선택 사항. 분할 열의 이름입니다. Databricks Runtime 15.3 ML 이상에서만 API 워크플로에 사용할 수 있습니다. 제공된 경우 AutoML은 사용자가 지정한 값을 사용하여 학습/유효성 검사/테스트 세트를 나누려고 시도하며 이 열은 학습 기능에서 자동으로 제외됩니다. 허용되는 열 형식은 문자열입니다. 이 열에 있는 각 항목의 값은 "train", "validate" 또는 "test" 중 하나여야 합니다. |
sample_weight_col |
str |
Databricks Runtime 15.4 ML 이상에서 분류 API 워크플로에 사용할 수 있습니다. 선택 사항. 각 행에 대한 샘플 가중치가 포함된 데이터 세트의 열 이름입니다. 분류는 클래스별 샘플 가중치를 지원합니다. 이러한 가중치는 모델 학습 중에 각 클래스의 중요성을 조정합니다. 클래스 내의 각 샘플은 동일한 샘플 가중치를 가져야 하며 가중치는 0에서 10,000 사이의 음수가 아닌 실수 또는 정수 값이어야 합니다. 샘플 가중치가 더 높은 클래스는 더 중요한 것으로 간주되며 학습 알고리즘에 더 큰 영향을 줍니다. 이 열을 지정하지 않으면 모든 클래스의 가중치가 같은 것으로 간주됩니다. |
max_trials |
int |
선택 사항. 실행할 최대 시도 횟수입니다. 이 매개 변수는 Databricks Runtime 10.5 ML 이하에서 사용할 수 있지만 Databricks Runtime 10.3 ML부터는 사용되지 않습니다. Databricks Runtime 11.0 ML 이상에서는 이 매개 변수가 지원되지 않습니다. 기본값: 20 timeout_minutes=None인 경우 AutoML은 최대 시도 횟수를 실행합니다. |
timeout_minutes |
int |
선택 사항. AutoML 시도가 완료될 때까지 기다리는 최대 시간입니다. 시간 초과가 길수록 AutoML은 더 많이 시도하여 더 나은 정확도로 모델을 식별할 수 있습니다. 기본값: 120분 최소값: 5분 제한 시간이 너무 짧아서 하나 이상의 시도를 완료할 수 없으면 오류가 보고됩니다. |
복귀
databricks.automl.regress
메서드는 회귀 모델을 학습하도록 AutoML 실행을 구성합니다. 이 메서드는 AutoMLSummary를 반환합니다.
참고 항목
max_trials
매개 변수는 Databricks Runtime 10.4 ML에서 더 이상 사용되지 않으며 Databricks Runtime 11.0 ML 이상에서는 지원되지 않습니다. timeout_minutes
를 사용하여 AutoML 실행 기간을 제어합니다.
databricks.automl.regress(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "r2",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None, # <DBR> 15.3 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
회귀 매개 변수
매개 변수 이름 | Type | 설명 |
---|---|---|
dataset |
str , pandas.DataFrame , pyspark.DataFrame pyspark.sql.DataFrame |
학습 기능과 대상이 포함된 입력 테이블 이름 또는 DataFrame입니다. 테이블 이름은 “<database_name>.<table_name>” 또는 Unity 카탈로그가 아닌 테이블의 경우 “<schema_name>.<table_name>” 형식일 수 있습니다. |
target_col |
str |
대상 레이블의 열 이름입니다. |
primary_metric |
str |
모델 성능을 평가하고 순위를 지정하는 데 사용되는 메트릭입니다. 회귀에 지원되는 메트릭: "r2"(기본값), "mae", "rmse", "mse" 분류에 지원되는 메트릭: "f1"(기본값), "log_loss", "precision", "accuracy", "roc_auc" |
data_dir |
str 형식의 dbfs:/<folder-name> |
선택 사항. 학습 데이터 세트를 저장하는 데 사용되는 DBFS 경로입니다. 이 경로는 드라이버 및 작업자 노드 모두에 표시됩니다. Databricks는 AutoML이 학습 데이터 세트를 MLflow 아티팩트로 저장할 수 있도록 이 필드를 비워 두는 것을 권장합니다. 사용자 지정 경로가 지정된 경우 데이터 세트는 AutoML 실험의 액세스 권한을 상속하지 않습니다. |
experiment_dir |
str |
선택 사항. 생성된 Notebooks 및 실험을 저장할 작업 영역의 디렉터리 경로입니다. 기본값: /Users/<username>/databricks_automl/ |
experiment_name |
str |
선택 사항. AutoML에서 만드는 MLflow 실험의 이름입니다. 기본값: 이름이 자동으로 생성됩니다. |
exclude_cols |
List[str] |
선택 사항. AutoML 계산 중에 무시할 열 목록입니다. 기본값: [] |
exclude_frameworks |
List[str] |
선택 사항. AutoML이 모델을 개발할 때 고려해서는 안 되는 알고리즘 프레임워크 목록입니다. 가능한 값: 빈 목록 또는 "sklearn", "lightgbm", "xgboost" 중 하나 이상입니다. 기본값: [](모든 프레임워크가 고려됨) |
feature_store_lookups |
List[Dict] |
선택 사항. 데이터 보강을 위한 Feature Store의 기능을 나타내는 사전 목록입니다. 각 사전의 유효한 키: - table_name (str): 필수. 기능 테이블의 이름입니다.- lookup_key (list 또는 str): 필수. dataset 매개변수로 전달된 데이터와 기능 테이블을 조인할 때 키로 사용할 열 이름입니다. 열 이름의 순서는 기능 테이블의 기본 키 순서와 일치해야 합니다.- timestamp_lookup_key (str): 지정된 테이블이 시계열 기능 테이블인 경우 필수입니다. dataset 매개 변수에 전달된 데이터를 사용하여 기능 테이블에서 지정 시간 조회를 수행할 때 사용할 열 이름입니다.기본값: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
선택 사항. 각 키는 열 이름이고 각 값은 대치 전략을 설명하는 사전 또는 문자열인 사전입니다. 문자열로 지정된 경우 값은 "mean", "median" 또는 "most_frequent" 중 하나여야 합니다. 알려진 값으로 대치하려면 값을 사전({"strategy": "constant", "fill_value": <desired value>} )으로 지정합니다. 문자열 옵션을 사전으로 지정할 수도 있습니다(예: {"strategy": "mean"} ).열에 대치 전략이 제공되지 않으면 AutoML은 열 형식과 콘텐츠에 따라 기본 전략을 선택합니다. 기본값이 아닌 대치 메서드를 지정하면 AutoML이 의미 체계 유형 검색을 수행하지 않습니다. 기본값: {} |
time_col |
str |
Databricks Runtime 10.1 ML 이상에서 사용할 수 있습니다. 선택 사항. 시간 열의 이름입니다. 제공되는 경우 AutoML은 가장 이른 포인트를 학습 데이터로 사용하고 최신 포인트를 테스트 집합으로 사용하여 데이터 세트를 시간순으로 학습, 유효성 검사 및 테스트 집합으로 분할하려고 시도합니다. 허용되는 열 유형은 타임스탬프와 정수입니다. Databricks Runtime 10.2 ML 이상에서는 문자열 열도 지원됩니다. 열 유형이 문자열인 경우 AutoML은 의미 체계 검색을 사용하여 이를 타임스탬프로 변환하려고 시도합니다. 변환에 실패하면 AutoML 실행이 실패합니다. |
split_col |
str |
선택 사항. 분할 열의 이름입니다. Databricks Runtime 15.3 ML 이상에서만 API 워크플로에 사용할 수 있습니다. 제공된 경우 AutoML은 사용자가 지정한 값을 사용하여 학습/유효성 검사/테스트 세트를 나누려고 시도하며 이 열은 학습 기능에서 자동으로 제외됩니다. 허용되는 열 형식은 문자열입니다. 이 열에 있는 각 항목의 값은 "train", "validate" 또는 "test" 중 하나여야 합니다. |
sample_weight_col |
str |
Databricks Runtime 15.3 ML 이상에서 회귀 API 워크플로에 사용할 수 있습니다. 선택 사항. 각 행에 대한 샘플 가중치가 포함된 데이터 세트의 열 이름입니다. 이러한 가중치는 모델 학습 중에 각 행의 중요도를 조정합니다. 가중치는 0에서 10,000 사이의 음수가 아닌 실수 또는 정수 값이어야 합니다. 샘플 가중치가 더 높은 행은 더 중요한 것으로 간주되며 학습 알고리즘에 더 큰 영향을 줍니다. 이 열을 지정하지 않으면 모든 행의 가중치가 같은 것으로 간주됩니다. |
max_trials |
int |
선택 사항. 실행할 최대 시도 횟수입니다. 이 매개 변수는 Databricks Runtime 10.5 ML 이하에서 사용할 수 있지만 Databricks Runtime 10.3 ML부터는 사용되지 않습니다. Databricks Runtime 11.0 ML 이상에서는 이 매개 변수가 지원되지 않습니다. 기본값: 20 timeout_minutes=None인 경우 AutoML은 최대 시도 횟수를 실행합니다. |
timeout_minutes |
int |
선택 사항. AutoML 시도가 완료될 때까지 기다리는 최대 시간입니다. 시간 초과가 길수록 AutoML은 더 많이 시도하여 더 나은 정확도로 모델을 식별할 수 있습니다. 기본값: 120분 최소값: 5분 제한 시간이 너무 짧아서 하나 이상의 시도를 완료할 수 없으면 오류가 보고됩니다. |
예측
databricks.automl.forecast
메서드는 예측 모델 학습을 위해 AutoML 실행을 구성합니다. 이 메서드는 AutoMLSummary를 반환합니다.
Auto-ARIMA를 사용하려면 시계열이 규칙적인 빈도를 가져야 합니다(즉, 두 지점 사이의 간격이 시계열 전체에서 동일해야 함). 빈도는 API 호출에 지정된 빈도 단위와 일치해야 합니다. AutoML은 해당 값을 이전 값으로 채워 누락된 시간 단계를 처리합니다.
databricks.automl.forecast(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
time_col: str,
primary_metric: str = "smape",
country_code: str = "US", # <DBR> 12.0 ML and above
frequency: str = "D",
horizon: int = 1,
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None,
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_frameworks: Optional[List[str]] = None,
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 12.2 LTS ML and above
identity_col: Optional[Union[str, List[str]]] = None,
sample_weight_col: Optional[str] = None, # <DBR> 16.0 ML and above
output_database: Optional[str] = None, # <DBR> 10.5 ML and above
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
예측 매개 변수
매개 변수 이름 | Type | 설명 |
---|---|---|
dataset |
str , pandas.DataFrame , pyspark.DataFrame pyspark.sql.DataFrame |
학습 기능과 대상이 포함된 입력 테이블 이름 또는 DataFrame입니다. 테이블 이름은 “..” 또는 Unity 카탈로그가 아닌 경우 “.” 형식일 수 있습니다. |
target_col |
str |
대상 레이블의 열 이름입니다. |
time_col |
str |
예측을 위한 시간 열의 이름입니다. |
primary_metric |
str |
모델 성능을 평가하고 순위를 지정하는 데 사용되는 메트릭입니다. 지원되는 메트릭: “smape” (기본값), “mse”, “rmse”, “mae”, or “mdape”. |
country_code |
str |
Databricks Runtime 12.0 ML 이상에서 사용할 수 있습니다. Prophet 예측 모델에서만 지원됩니다. 선택 사항. 예측 모델에서 사용해야 하는 국가의 휴일을 나타내는 두 글자로 된 국가 코드입니다. 휴일을 무시하려면 이 매개 변수를 빈 문자열(“”)로 설정합니다. 지원되는 국가. 기본값: US(미국 휴일). |
frequency |
str |
예측을 위한 시계열의 빈도입니다. 이벤트가 발생할 것으로 예상되는 기간입니다. 기본 설정은 "D" 또는 일일 데이터입니다. 데이터의 빈도가 다른 경우 이 설정을 변경해야 합니다. 가능한 값: "W"(주) “D” / “days” / “day” “hours” / “hour” / “hr” / “h” “m” / “minute” / “min” / “minutes” / “T” “S” / “seconds” / “sec” / “second” 다음은 Databricks Runtime 12.0 ML 이상에서만 사용할 수 있습니다. “M” / “month” / “months” “Q” / “quarter” / “quarters” “Y” / “year” / “years” 기본값: "D" |
horizon |
int |
예측이 반환되어야 하는 향후의 기간 수입니다. 단위는 시계열 주파수입니다. 기본값: 1 |
data_dir |
str 형식의 dbfs:/<folder-name> |
선택 사항. 학습 데이터 세트를 저장하는 데 사용되는 DBFS 경로입니다. 이 경로는 드라이버 및 작업자 노드 모두에 표시됩니다. Databricks는 AutoML이 학습 데이터 세트를 MLflow 아티팩트로 저장할 수 있도록 이 필드를 비워 두는 것을 권장합니다. 사용자 지정 경로가 지정된 경우 데이터 세트는 AutoML 실험의 액세스 권한을 상속하지 않습니다. |
experiment_dir |
str |
선택 사항. 생성된 Notebooks 및 실험을 저장할 작업 영역의 디렉터리 경로입니다. 기본값: /Users/<username>/databricks_automl/ |
experiment_name |
str |
선택 사항. AutoML에서 만드는 MLflow 실험의 이름입니다. 기본값: 이름이 자동으로 생성됩니다. |
exclude_frameworks |
List[str] |
선택 사항. AutoML이 모델을 개발할 때 고려해서는 안 되는 알고리즘 프레임워크 목록입니다. 가능한 값: 빈 목록 또는 “prophet”, “arima” 중 하나 이상입니다. 기본값: [](모든 프레임워크가 고려됨) |
feature_store_lookups |
List[Dict] |
선택 사항. 공변량 데이터 보강을 위해 Feature Store에서 가져온 기능을 나타내는 사전 목록입니다. 각 사전의 유효한 키: - table_name (str): 필수. 기능 테이블의 이름입니다.- lookup_key (list 또는 str): 필수. dataset 매개변수로 전달된 데이터와 기능 테이블을 조인할 때 키로 사용할 열 이름입니다. 열 이름의 순서는 기능 테이블의 기본 키 순서와 일치해야 합니다.- timestamp_lookup_key (str): 지정된 테이블이 시계열 기능 테이블인 경우 필수입니다. dataset 매개 변수에 전달된 데이터를 사용하여 기능 테이블에서 지정 시간 조회를 수행할 때 사용할 열 이름입니다.기본값: [] |
identity_col |
Union[str, list] |
선택 사항. 다중 시리즈 예측을 위한 시계열을 식별하는 열입니다. AutoML은 이러한 열과 예측을 위한 시간 열을 기준으로 그룹화합니다. |
sample_weight_col |
str |
Databricks Runtime 16.0 ML 이상에서 사용할 수 있습니다. 다중 시계열 워크플로에만 해당합니다. 선택 사항. 샘플 가중치가 포함된 데이터 세트의 열을 지정합니다. 이러한 가중치는 모델 학습 및 평가 중에 각 시계열의 상대적 중요도를 나타냅니다. 가중치가 더 높은 시계열은 모델에 더 큰 영향을 줍니다. 제공되지 않은 경우 모든 시계열은 동일한 가중치로 처리됩니다. 동일한 시계열에 속하는 모든 행의 가중치는 같아야 합니다. 가중치는 음수가 아닌 값(소수점 또는 정수)이어야 하며 0에서 10,000 사이여야 합니다. |
output_database |
str |
선택 사항. 제공되는 경우 AutoML은 지정된 데이터베이스의 새 테이블에 가장 적합한 모델의 예측을 저장합니다. 기본값: 예측은 저장되지 않습니다. |
timeout_minutes |
int |
선택 사항. AutoML 시도가 완료될 때까지 기다리는 최대 시간입니다. 시간 초과가 길수록 AutoML은 더 많이 시도하여 더 나은 정확도로 모델을 식별할 수 있습니다. 기본값: 120분 최소값: 5분 제한 시간이 너무 짧아서 하나 이상의 시도를 완료할 수 없으면 오류가 보고됩니다. |
Notebook 가져오기
databricks.automl.import_notebook
메서드는 MLflow 아티팩트로 저장된 Notebook을 가져옵니다. 이 메서드는 ImportNotebookResult를 반환합니다.
databricks.automl.import_notebook(
artifact_uri: str,
path: str,
overwrite: bool = False
) -> ImportNotebookResult:
매개 변수 | Type | 설명 |
---|---|---|
artifact_uri |
str |
평가판 Notebook을 포함하는 MLflow 아티팩트 URI입니다. |
path |
str |
Notebook을 가져와야 하는 Databricks 작업 영역 내 경로입니다. 이 항목은 절대 경로여야 합니다. 디렉터리가 존재하지 않으면 자동으로 생성됩니다. |
overwrite |
bool |
Notebook이 이미 존재할 경우 이를 덮어쓸지 여부입니다. 기본값은 False 입니다. |
Notebook 가져오기 예제
summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)
AutoMLSummary
각 시도에 대한 메트릭, 매개 변수 및 기타 세부 정보를 설명하는 AutoML 실행에 대한 요약 개체입니다. 또한 이 개체를 사용하여 특정 시도에서 학습된 모델을 로드합니다.
속성 | Type | 설명 |
---|---|---|
experiment |
mlflow.entities.Experiment |
시도를 기록하는 데 사용되는 MLflow 실험입니다. |
trials |
List[TrialInfo] |
실행된 모든 시도에 대한 정보를 포함하는 TrialInfo 개체의 목록입니다. |
best_trial |
TrialInfo |
기본 메트릭에 대해 최고의 가중치 점수를 얻은 시도에 대한 정보를 포함하는 TrialInfo 개체입니다. |
metric_distribution |
str |
모든 시도에서 기본 메트릭에 대한 가중 점수 분포입니다. |
output_table_name |
str |
output_database가 제공된 경우에만 예측과 함께 사용됩니다. 모델의 예측을 포함하는 output_database의 테이블 이름입니다. |
TrialInfo
각 개별 시도에 대한 요약 개체입니다.
속성 | Type | 설명 |
---|---|---|
notebook_path |
Optional[str] |
작업 영역에서 이 평가판에 대해 생성된 Notebook의 경로입니다. 분류 및 회귀의 경우, 이 값은 최적의 시도에 대해서만 설정되며 다른 모든 시도의 경우 값은 None 으로 설정됩니다.예측의 경우 이 값은 모든 시도에 대해 존재합니다. |
notebook_url |
Optional[str] |
이 평가판에 대해 생성된 Notebook의 URL입니다. 분류 및 회귀의 경우, 이 값은 최적의 시도에 대해서만 설정되며 다른 모든 시도의 경우 값은 None 으로 설정됩니다.예측의 경우 이 값은 모든 시도에 대해 존재합니다. |
artifact_uri |
Optional[str] |
생성된 Notebook의 MLflow 아티팩트 URI입니다. |
mlflow_run_id |
str |
이 시험 실행과 연결된 MLflow 실행 ID입니다. |
metrics |
Dict[str, float] |
이 평가판에 대해 MLflow에 기록된 메트릭입니다. |
params |
Dict[str, str] |
이 평가판에 사용된 MLflow에 기록된 매개 변수입니다. |
model_path |
str |
이 시도에서 학습된 모델의 MLflow 아티팩트 URL입니다. |
model_description |
str |
이 모델을 학습하는 데 사용되는 모델 및 하이퍼 매개 변수에 대한 간략한 설명입니다. |
duration |
str |
학습 기간(분). |
preprocessors |
str |
모델을 학습하기 전에 실행되는 전처리기에 대한 설명입니다. |
evaluation_metric_score |
float |
유효성 검사 데이터 세트에 대해 평가된 기본 메트릭의 점수입니다. |
TrialInfo
에는 해당 시도에서 생성된 모델을 로드하는 메서드가 있습니다.
메서드 | 설명 |
---|---|
load_model() |
MLflow 아티팩트로 기록된 이 시도에서 생성된 모델을 로드합니다. |
ImportNotebookResult
속성 | Type | 설명 |
---|---|---|
path |
str |
Notebook을 가져와야 하는 Databricks 작업 영역 내 경로입니다. 이 항목은 절대 경로여야 합니다. 디렉터리가 존재하지 않으면 자동으로 생성됩니다. |
url |
str |
평가판 Notebook을 포함하는 MLflow 아티팩트 URI입니다. |