예측을 위한 데이터 준비
이 문서에서는 AutoML이 학습을 예측하기 위해 데이터를 준비하는 방법을 설명하고 구성 가능한 데이터 설정을 설명합니다. AutoML UI에서 실험 설정 중에 이러한 옵션을 조정할 수 있습니다.
AutoML API를 사용하여 이러한 설정을 구성하려면 AutoML Python API 참조를 참조하세요.
지원되는 데이터 기능 유형
아래에 나열된 기능 유형만 지원됩니다. 예를 들어 이미지는 지원되지 않습니다 .
다음 기능 유형이 지원됩니다.
- 숫자(
ByteType
,ShortType
,IntegerType
,LongType
,FloatType
및DoubleType
) - Boolean
- 문자열(범주 또는 영어 텍스트)
- 타임스탬프(
TimestampType
,DateType
) - ArrayType[숫자](Databricks Runtime 10.4 LTS ML 이상)
- DecimalType(Databricks Runtime 11.3 LTS ML 이상)
누락 값 입력
Databricks Runtime 10.4 LTS ML 이상에서는 null 값을 대치하는 방법을 지정할 수 있습니다. UI에서 테이블 스키마의 다음으로 대체 열에 있는 드롭다운에서 메서드를 선택합니다. API에서 imputers
매개 변수를 사용합니다. 자세한 내용은 AutoML Python API 참조를 참조하세요.
기본적으로 AutoML은 열 유형 및 콘텐츠를 기반으로 대치 메서드를 선택합니다.
참고 항목
기본값이 아닌 대치 메서드를 지정하면 AutoML이 의미 체계 유형 검색을 수행하지 않습니다.
예측 데이터를 학습, 유효성 검사 및 테스트 집합으로 분할
AutoML은 학습, 유효성 검사 및 테스트를 위해 데이터를 세 개의 분할로 분할합니다.
예측 작업의 경우 AutoML은 시계열 교차 유효성 검사를 사용합니다. 이 메서드는 학습 데이터 세트를 시간순으로 증분적으로 확장하고 후속 시간 지점에서 유효성 검사를 수행합니다. 교차 유효성 검사는 다양한 시간 세그먼트에 대한 모델의 성능을 강력하게 평가합니다. 예측 모델이 보이지 않는 미래 데이터에 대해 엄격하게 테스트되어 예측의 관련성과 정확도를 유지합니다.
교차 유효성 검사 폴드의 수는 시계열 수, 공변의 존재 및 시계열 길이와 같은 입력 테이블 특성에 따라 달라집니다.
시계열 집계
예측 문제의 경우 시계열의 타임스탬프에 대해 여러 값이 있는 경우 AutoML은 값의 평균을 사용합니다.
합계를 대신 사용하려면 시험판 실행으로 생성된 소스 코드 Notebook을 편집합니다. 다음과 같이 다음으로 데이터 집계 ... 셀에서 .agg(y=(target_col, "avg"))
을 .agg(y=(target_col, "sum"))
으로 변경합니다.
group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
.groupby(group_cols) \
.agg(y=(target_col, "sum")) \
.reset_index() \
.rename(columns={ time_col : "ds" })