CLI(v2) 자동화된 ML 예측 명령 작업 YAML 스키마
적용 대상: Azure CLI ml 확장 v2(현재)
원본 JSON 스키마는 다음 위치에서 찾을 수 있습니다. https://azuremlschemas.azureedge.net/latest/autoMLForecastingJob.schema.json
참고 항목
이 문서에 자세히 설명된 YAML 구문은 최신 버전의 ML CLI v2 확장에 대한 JSON 스키마를 기반으로 합니다. 이 구문은 최신 버전의 ML CLI v2 확장에서만 작동하도록 보장됩니다. https://azuremlschemasprod.azureedge.net/에서 이전 확장 버전에 대한 스키마를 찾을 수 있습니다.
YAML 구문
키 | 형식 | 설명 | 허용된 값 | 기본값 |
---|---|---|---|---|
$schema |
string | YAML 스키마를 로드할 위치/URL입니다. 사용자가 Azure Machine Learning VS Code 확장을 사용하여 파일 맨 위에 있는 $schema YAML 파일을 작성하는 경우 사용자는 스키마 및 리소스 완성을 호출할 수 있습니다. |
||
compute |
string | 필수입니다. 작업을 실행할 AML 컴퓨팅 인프라의 이름입니다. 컴퓨팅은 작업 영역의 기존 컴퓨팅 머신에 대한 참조일 수 있습니다. 참고: 파이프라인의 작업은 'local'을 compute 지원하지 않습니다. 여기서 'local'은 사용자의 Azure Machine Learning 스튜디오 작업 영역에서 생성된 컴퓨팅 인스턴스를 의미합니다. |
1. 기존 컴퓨팅을 사용하는 패턴 [^azureml:<compute_name>] ,2. 'local' 로컬 실행을 사용하려면 |
'local' |
limits |
개체 | 자동화된 ML 테이블 형식 작업의 제한 구성으로 구성된 사전 개체를 나타냅니다. 키는 작업의 컨텍스트 내에서 제한에 대한 이름이며 값은 제한 값입니다. 이 개체의 속성을 확인하려면 제한을 참조하세요. |
||
name |
string | 제출된 자동화된 ML 작업의 이름입니다. 작업 영역의 모든 작업에서 고유해야 합니다. 지정하지 않으면 Azure Machine Learning은 이름에 대한 GUID를 자동으로 생성합니다. |
||
description |
string | 자동화된 ML 작업에 대한 설명입니다. | ||
display_name |
string | 사용자가 스튜디오 UI에 표시하려는 작업의 이름입니다. 작업 영역 내에서 고유하지 않을 수 있습니다. 생략하면 Azure Machine Learning은 표시 이름에 대해 사람이 읽을 수 있는 형용사 명사 식별자를 자동으로 생성합니다. | ||
experiment_name |
string | 실험의 이름입니다. 실험은 Azure에서 ML 학습 작업의 레코드입니다. 실험에는 로그, 차트 및 그래프와 함께 실행 결과가 포함됩니다. 각 작업의 실행 레코드는 스튜디오의 "실험" 탭에 있는 해당 실험으로 구성됩니다. |
만들어진 작업 디렉터리의 이름 | |
environment_variables |
개체 | 명령이 실행되는 프로세스에서 설정할 환경 변수의 사전 개체입니다. | ||
outputs |
개체 | 작업의 출력 구성 사전을 나타냅니다. 키는 작업의 컨텍스트 내에서 출력에 대한 이름이고 값은 출력 구성입니다. 이 개체의 속성을 확인하려면 작업 출력을 참조하세요. | ||
log_files |
개체 | 자동화된 ML 작업 실행 로그를 포함하는 사전 개체 | ||
log_verbosity |
string | 로그 파일에 쓰기 위한 로그 세부 정보 수준입니다. 허용되는 값은 Python 로깅 라이브러리에 정의됩니다. |
'not_set' , 'debug' , 'info' , 'warning' , 'error' 'critical' |
'info' |
type |
const | 필수입니다. 작업의 유형입니다. |
automl |
automl |
task |
const | 필수입니다. 실행할 자동화된 ML 작업의 형식입니다. |
forecasting |
forecasting |
target_column_name |
string | 필수입니다. 예측할 열의 이름을 나타냅니다. 자동화된 ML 작업은 지정하지 않으면 오류가 발생합니다. |
||
featurization |
개체 | 사용자 지정 기능화의 구성을 정의하는 사전 개체입니다. 만들어지지 않은 경우 자동화된 ML 구성은 자동 기능화를 적용합니다. 이 개체의 속성을 보려면 기능화를 참조하세요. | ||
forecasting |
개체 | 예측 작업의 설정을 정의하는 사전 개체입니다. 이 개체의 속성을 확인하려면 예측을 참조하세요. | ||
n_cross_validations |
문자열 또는 정수 | 지정되지 않은 경우 validation_data 모델/파이프라인을 선택하는 동안 수행할 교차 유효성 검사 수입니다.이 매개 변수와 이 매개 변수가 모두 validation_data 제공되지 않거나 설정 None 되지 않은 경우 자동화된 ML 작업은 기본적으로 매개 변수를 auto 설정합니다. 사용하도록 설정되고 validation_data 지정되지 않은 경우 distributed_featurization 기본적으로 2로 설정됩니다. |
'auto' , [int] |
None |
primary_metric |
string | 자동화된 ML이 시계열 예측 모델 선택에 최적화하는 메트릭입니다. 학습에 사용할 'tcn_forecaster'이 있는 경우 allowed_training_algorithms 자동화된 ML은 'normalized_root_mean_squared_error' 및 'normalized_mean_absolute_error'에서만 primary_metric 사용할 수 있도록 지원합니다. |
"spearman_correlation" , , "normalized_root_mean_squared_error" "r2_score" "normalized_mean_absolute_error" |
"normalized_root_mean_squared_error" |
training |
개체 | 모델 학습에 사용되는 구성을 정의하는 사전 개체입니다. 학습을 확인하여 이 개체의 속성을 확인합니다. |
||
training_data |
개체 | Required 모델 학습에 대한 입력으로 사용할 학습 데이터를 정의하는 MLTable 구성을 포함하는 사전 개체입니다. 이 데이터는 데이터의 하위 집합이며 독립적인 기능/열과 대상 기능/열로 구성되어야 합니다. 사용자는 ':' 형식(예: Input(mltable='my_mltable:1') 형식을 사용하여 작업 영역에서 등록된 MLTable을 사용하거나 로컬 파일 또는 폴더를 MLTable(예: Input(mltable=MLTable(local_path="./data")으로 사용할 수 있습니다. 이 개체를 제공해야 합니다. 원본 파일에 대상 기능이 없으면 자동화된 ML에서 오류가 발생합니다. 학습 또는 유효성 검사 또는 테스트 데이터를 확인하여 이 개체의 속성을 확인합니다. |
||
validation_data |
개체 | 교차 유효성 검사를 위해 자동화된 ML 실험 내에서 사용할 유효성 검사 데이터를 정의하는 MLTable 구성이 포함된 사전 개체입니다. 이 개체가 제공된 경우 독립적인 기능/열과 대상 기능/열로 구성되어야 합니다. 학습 데이터 및 유효성 검사 데이터의 샘플은 접기에서 겹칠 수 없습니다. 이 개체의 속성을 확인하려면 학습 또는 유효성 검사 또는 테스트 데이터를 참조하세요. 이 개체가 정의되지 않은 경우 자동화된 ML은 개체에 정의된 training_data 학습 데이터에서 유효성 검사 데이터를 분할하는 데 사용합니다n_cross_validations . |
||
test_data |
개체 | 최상의 모델을 사용하여 예측을 위해 테스트 실행에 사용할 테스트 데이터를 정의하는 MLTable 구성을 포함하고 정의된 메트릭을 사용하여 모델을 평가하는 사전 개체입니다. 이 개체가 제공된 경우 학습 데이터(대상 기능 제외)에 사용되는 독립적인 기능으로만 구성되어야 합니다. 학습 또는 유효성 검사 또는 테스트 데이터를 확인하여 이 개체의 속성을 확인합니다. 제공되지 않은 경우 자동화된 ML은 다른 기본 제공 메서드를 사용하여 추론에 사용할 최상의 모델을 제안합니다. |
제한
키 | 형식 | 설명 | 허용된 값 | Default value |
---|---|---|---|---|
enable_early_termination |
부울 값 | 'x' 반복 횟수 이후 손실 점수가 개선되지 않는 경우 실험 종료를 사용하도록 설정할지 여부를 나타냅니다. 자동화된 ML 작업에서는 처음 20번의 반복에 조기 중지가 적용되지 않습니다. 초기 중지 창은 처음 20번의 반복 후에만 시작됩니다. |
true , false |
true |
max_concurrent_trials |
정수 | 병렬로 실행될 최대 평가판 수(자식 작업)입니다. 동시 실행 수를 클러스터의 노드 수(정의된 aml 컴퓨팅 compute )로 설정하는 것이 좋습니다. |
1 |
|
max_trials |
정수 | 자동화된 ML 작업에서 서로 다른 하이퍼 매개 변수 조합으로 학습 알고리즘을 실행하려고 시도할 수 있는 최대 평가판 수를 나타냅니다. 기본값은 1000으로 설정됩니다. 정의된 경우 enable_early_termination 학습 알고리즘을 실행하는 데 사용되는 평가판 수가 더 적을 수 있습니다. |
1000 |
|
max_cores_per_trial |
정수 | 각 평가판에서 사용할 수 있는 코어당 최대 코어 수를 나타냅니다. 기본값은 -1로 설정됩니다. 즉, 모든 코어가 프로세스에 사용됩니다. | -1 |
|
timeout_minutes |
정수 | 제출된 자동화된 ML 작업을 실행하는 데 걸리는 최대 시간(분)입니다. 지정된 시간 후에 작업이 종료됩니다. 이 시간 제한에는 모든 평가판의 설정, 기능화, 학습 실행, ensembling 및 모델 설명 가능성(제공된 경우)이 포함됩니다. 모든 평가판(자식 작업)이 완료되면 이러한 기능을 사용할 수 있으므로 제공된 timeout_minutes 내에서 작업이 완료되지 않는 경우 프로세스의 끝에는 ensembling 및 모델 설명 기능이 포함되지 않습니다. 기본값은 360분(6시간)으로 설정됩니다. 1시간(60분)보다 작거나 같은 시간 제한을 지정하려면 데이터 세트의 크기가 10,000,000(행 시간 열) 또는 오류 결과보다 크지 않은지 확인해야 합니다. |
360 |
|
trial_timeout_minutes |
정수 | 제출된 자동화된 ML 작업의 각 평가판(자식 작업)이 실행할 수 있는 최대 시간(분)입니다. 지정된 시간 후에 자식 작업이 종료됩니다. | 30 |
|
exit_score |
float | 실험에서 달성할 점수입니다. 지정된 점수에 도달하면 실험이 종료됩니다. 지정하지 않으면(조건 없음) 정의된 primary metric 항목에 대해 더 이상 진행되지 않을 때까지 실험이 실행됩니다. |
예측
키 | 형식 | 설명 | 허용된 값 | 기본값 |
---|---|---|---|---|
time_column_name |
string | Required 각 시계열의 시간 축에 해당하는 데이터 세트의 열 이름입니다. 학습, 유효성 검사 또는 테스트에 대한 입력 데이터 세트에는 작업이 있는 경우 이 열이 forecasting 포함되어야 합니다. 제공되지 않거나 설정 None 되지 않은 경우 자동화된 ML 예측 작업이 오류를 throw하고 실험을 종료합니다. |
||
forecast_horizon |
문자열 또는 정수 | 시계열 빈도 단위의 최대 예측 수평선입니다. 이러한 단위는 예측에서 예측하는 데 사용하는 학습 데이터의 유추된 시간 간격(예: 매월, 매주)을 기반으로 합니다. None 또는 auto None으로 설정된 경우 기본값은 1로 설정됩니다. 즉, 입력 데이터의 마지막 타임스탬프 t에서 't+1'입니다. |
auto , [int] |
1 |
frequency |
문자열 | 예측 생성이 필요한 빈도(예: 매일, 매주, 매년 등)입니다. 지정하지 않거나 None으로 설정되지 않은 경우 기본값은 데이터 세트 시간 인덱스에서 유추됩니다. 사용자는 데이터 세트의 유추 빈도보다 큰 값을 설정할 수 있지만 그보다 작지는 않습니다. 예를 들어 데이터 세트의 빈도가 매일인 경우 매일, 매주, 매월 같은 값을 사용할 수 있지만 매시간이 아니라 매시간 매일(24시간)보다 작습니다. 자세한 내용은 pandas 설명서를 참조하세요. |
None |
|
time_series_id_column_names |
string 또는 list(strings) | 데이터를 여러 시계열로 그룹화하는 데 사용할 데이터의 열 이름입니다. time_series_id_column_names 정의되지 않았거나 None으로 설정되지 않은 경우 자동화된 ML은 자동 검색 논리를 사용하여 열을 검색합니다. | None |
|
feature_lags |
string | 사용자가 제공된 숫자 기능에 대한 지연을 자동으로 생성하려는 경우를 나타냅니다. 기본값은 auto 자동 고침 기반 추론을 사용하여 지연 순서를 자동으로 선택하고 모든 숫자 기능에 대해 해당 지연 기능을 생성함을 의미합니다. "없음"은 숫자 기능에 대해 지연이 생성되지 않음을 의미합니다. |
'auto' , None |
None |
country_or_region_for_holidays |
string | 휴일 기능을 생성하는 데 사용할 국가 또는 지역입니다. 이러한 문자는 ISO 3166 두 글자 국가/지역 코드(예: 'US' 또는 'GB')로 표시되어야 합니다. ISO 코드 목록은 다음에서 찾을 수 있습니다. https://wikipedia.org/wiki/List_of_ISO_3166_country_codes | None |
|
cv_step_size |
문자열 또는 정수 | 한 CV 접기의 origin_time 다음 접기 사이의 기간 수입니다. 예를 들어 일별 데이터에 대해 3으로 설정된 경우 각 접기에 대한 원본 시간은 3일 간격입니다. None으로 설정하거나 지정하지 않으면 기본적으로 설정됩니다 auto . 정수 형식인 경우 사용할 수 있는 최소값은 1이고, 그렇지 않으면 오류가 발생합니다. |
auto , [int] |
auto |
seasonality |
문자열 또는 정수 | 계열 빈도의 정수 배수인 시계열 계절성입니다. 계절성을 지정하지 않으면 해당 값이 자동 ML에 의해 자동으로 유추됨을 의미합니다 'auto' . 이 매개 변수가 설정 None 되지 않은 경우 자동화된 ML은 시계열을 계절이 아닌 것으로 가정합니다. 이는 시계열을 정수 값 1로 설정하는 것과 같습니다. |
'auto' , [int] |
auto |
short_series_handling_config |
string | 지정된 경우 자동화된 ML에서 짧은 시계열을 처리하는 방법을 나타냅니다. 다음 값을 사용합니다.
|
'auto' , 'pad' , 'drop' None |
auto |
target_aggregate_function |
string | 시계열에서 대상 열을 집계하고 지정된 빈도(정의됨)로 예측을 생성하는 데 사용할 집계 함수를 freq 나타냅니다. 이 매개 변수가 설정되어 있지만 매개 변수가 freq 설정되지 않은 경우 오류가 발생합니다. 생략되거나 None으로 설정된 다음 집계가 적용되지 않습니다. |
'sum' , 'max' , 'min' 'mean' |
auto |
target_lags |
string 또는 integer 또는 list(integer) | 데이터 세트 빈도에 따라 대상 값에서 지연되는 데 사용할 과거/기록 기간의 수입니다. 기본적으로 이 매개 변수는 꺼져 있습니다. 이 'auto' 설정을 통해 시스템은 자동 추론 기반 지연을 사용할 수 있습니다. 독립 변수와 종속 변수 간의 관계가 기본적으로 상관 관계가 없는 경우 이 지연 속성을 사용해야 합니다. 자세한 내용은 자동화된 ML의 시계열 예측에 대한 지연된 기능을 참조 하세요. |
'auto' , [int] |
None |
target_rolling_window_size |
문자열 또는 정수 | 대상 열의 롤링 창 평균을 만드는 데 사용할 과거 관찰 수입니다. 예측 시 이 매개 변수는 예측된 값 <= 학습 집합 크기를 생성하는 데 사용할 n개의 기록 기간을 나타냅니다. 생략하면 n은 전체 학습 세트 크기입니다. 모델을 학습할 때 일정량의 기록만 고려하려는 경우에만 이 매개 변수를 지정합니다. | 'auto' 정수 None |
None |
use_stl |
string | 시계열에 STL 분해를 적용하여 생성할 구성 요소입니다. 없음을 제공하거나 None으로 설정하지 않으면 시계열 구성 요소가 생성되지 않습니다. use_stl 다음 두 값을 사용할 수 있습니다. 'season' : 시즌 구성 요소를 생성합니다. 'season_trend' : 시즌 자동화된 ML 및 추세 구성 요소를 모두 생성합니다. |
'season' , 'seasontrend' |
None |
학습 또는 유효성 검사 또는 테스트 데이터
키 | 형식 | 설명 | 허용된 값 | 기본값 |
---|---|---|---|---|
datastore |
string | 사용자가 데이터를 업로드하는 데이터 저장소의 이름입니다. | ||
path |
string | 데이터를 로드해야 하는 경로입니다. 경로, folder 경로 또는 pattern 경로일 file 수 있습니다. pattern 는 데이터를 포함하는 파일 및 폴더의 globbing(* 및 ** )을 허용하는 검색 패턴을 지정합니다. 지원되는 URI 형식은 azureml , https , wasbs , abfss , adl 입니다. 자세한 내용은 Core yaml 구문을 참조하여 URI 형식을 사용하는 azureml:// 방법을 이해합니다. 아티팩트 파일 위치의 URI입니다. 이 URI에 구성표(예: http:, azureml: 등)가 없는 경우 로컬 참조로 간주되며 엔터티를 만들 때 가리키는 파일이 기본 작업 영역 Blob-Storage에 업로드됩니다. |
||
type |
const | 입력 데이터의 형식입니다. 컴퓨터 비전 모델을 생성하려면 사용자는 레이블이 지정된 이미지 데이터를 MLTable 형식의 모델 학습을 위한 입력으로 가져와야 합니다. | mltable |
mltable |
학습
키 | 형식 | 설명 | 허용된 값 | Default value |
---|---|---|---|---|
allowed_training_algorithms |
list(string) | 실험에서 모델 학습을 위한 기본 모델로 사용해 보기 위한 시계열 예측 알고리즘 목록입니다. 생략하거나 None으로 설정하면 지정된 알고리즘을 제외하고 실험 중에 지원되는 모든 알고리즘이 blocked_training_algorithms 사용됩니다. |
'auto_arima' , 'prophet' , 'naive' ,'seasonal_naive' , 'average' , 'seasonal_average' , , 'exponential_smoothing' , 'arimax' , 'tcn_forecaster' , 'gradient_boosting' , 'decision_tree' 'random_forest' 'light_gbm' 'knn' 'lasso_lars' 'sgd' 'extreme_random_trees' 'elastic_net' 'xg_boost_regressor' |
None |
blocked_training_algorithms |
list(string) | 실험에서 모델을 학습하는 동안 기본 모델로 실행되지 않는 시계열 예측 알고리즘 목록입니다. 생략하거나 None으로 설정하면 모델 학습 중에 지원되는 모든 알고리즘이 사용됩니다. | 'auto_arima' , 'prophet' , 'naive' , 'seasonal_naive' , 'average' , 'seasonal_average' , , 'exponential_smoothing' , ,'tcn_forecaster' 'arimax' , , 'decision_tree' 'lasso_lars' 'knn' 'light_gbm' 'gradient_boosting' 'sgd' 'random_forest' 'extreme_random_trees' 'elastic_net' 'xg_boost_regressor' |
None |
enable_dnn_training |
부울 값 | 모델을 선택하는 동안 시도할 DNN 기반 모델의 포함을 설정하거나 해제하는 플래그입니다. | True , False |
False |
enable_model_explainability |
부울 값 | 자동화된 ML 시스템에서 평가한 최상의 모델의 기능 중요도와 같은 모델 설명 기능을 켜는 플래그를 나타냅니다. | True , False |
True |
enable_vote_ensemble |
부울 값 | Voting 알고리즘을 사용하여 일부 기본 모델의 ensembling을 사용하거나 사용하지 않도록 설정하는 플래그입니다. 앙상블에 대한 자세한 내용은 자동 학습 설정을 참조하세요. | true , false |
true |
enable_stack_ensemble |
부울 값 | Stacking 알고리즘을 사용하여 일부 기본 모델의 ensembling을 사용하거나 사용하지 않도록 설정하는 플래그입니다. 예측 작업에서 이 플래그는 메타 학습자를 맞추는 데 사용되는 작은 학습 집합으로 인해 과잉 맞춤의 위험을 방지하기 위해 기본적으로 꺼져 있습니다. 앙상블에 대한 자세한 내용은 자동 학습 설정을 참조하세요. | true , false |
false |
기능화
키 | 형식 | 설명 | 허용된 값 | 기본값 |
---|---|---|---|---|
mode |
string | 자동화된 ML 작업에서 사용할 기능화 모드입니다. 다음으로 설정: 'auto' 기능화 단계를 자동으로 수행해야 하는지 여부를 나타냅니다.'off' 는 사용자 지정된 기능화를 사용해야 하는지 여부를 나타내는 기능화<'custom' 가 없음을 나타냅니다. 참고: 입력 데이터가 희소한 경우 기능화 설정을 켤 수 없습니다. |
'auto' , , 'off' 'custom' |
None |
blocked_transformers |
list(string) | 기능화 mode 가 '사용자 지정'으로 설정된 경우 자동화된 ML에서 기능화 단계 중에 차단할 변환기 이름 목록입니다. |
'text_target_encoder' , 'one_hot_encoder' , 'cat_target_encoder' , 'tf_idf' , 'wo_e_target_encoder' , 'label_encoder' , 'word_embedding' 'naive_bayes' , 'count_vectorizer' 'hash_one_hot_encoder' |
None |
column_name_and_types |
개체 | 기능화 mode 가 '사용자 지정'으로 설정된 경우 열 이름을 받아쓰기 키로 구성하고 열 용도를 연결된 값으로 업데이트하는 데 사용되는 기능 형식으로 구성된 사전 개체입니다. |
||
transformer_params |
개체 | 기능화가 '사용자 지정'으로 설정된 경우 기능화를 mode 위해 데이터 세트 열에서 변환기 이름을 키로 사용하고 해당 사용자 지정 매개 변수로 구성된 중첩된 사전 개체입니다.예측은 사용자 지정을 imputer 위한 변환기만 지원합니다.column_transformers 확인하여 사용자 지정 매개 변수를 만드는 방법을 알아보세요. |
None |
column_transformers
키 | 형식 | 설명 | 허용된 값 | Default value |
---|---|---|---|---|
fields |
list(string) | 제공된 transformer_params 열 이름을 적용해야 하는 목록입니다. |
||
parameters |
개체 | '전략'을 키로, 값을 대체 전략으로 구성하는 사전 개체입니다. 제공 방법에 대한 자세한 내용은 여기 예제에 나와 있습니다. |
작업 출력
키 | 형식 | 설명 | 허용된 값 | 기본값 |
---|---|---|---|---|
type |
string | 작업 출력의 형식입니다. 기본 uri_folder 형식의 경우 출력은 폴더에 해당합니다. |
uri_folder , , mlflow_model custom_model |
uri_folder |
mode |
string | 출력 파일이 대상 스토리지에 배달되는 방식의 모드입니다. 읽기/쓰기 탑재 모드(rw_mount )의 경우 출력 디렉터리가 탑재된 디렉터리입니다. 업로드 모드의 경우 작성된 파일은 작업이 끝날 때 업로드됩니다. |
rw_mount , upload |
rw_mount |
CLI를 통해 예측 작업을 실행하는 방법
az ml job create --file [YOUR_CLI_YAML_FILE] --workspace-name [YOUR_AZURE_WORKSPACE] --resource-group [YOUR_AZURE_RESOURCE_GROUP] --subscription [YOUR_AZURE_SUBSCRIPTION]