다음을 통해 공유


AutoML에서 시계열 예측을 위한 지연 기능

이 문서에서는 Azure Machine Learning의 AutoML(자동화된 기계 학습)이 시계열 회귀 모델을 예측하는 데 도움이 되는 지연 및 롤링 기간 집계 기능을 만드는 방법을 설명합니다. AutoML 기능은 모델에서 시간 내 상관 관계 패턴을 학습하도록 지원하여 모델 정확도를 크게 높일 수 있는 기록 모델 데이터를 사용합니다.

AutoML의 예측 방법론에 대해 자세히 알아보려면 AutoML의 예측 방법 개요를 참조하세요. AutoML에서 예측 모델에 대한 학습 예제를 살펴보려면 SDK 및 CLI를 사용하여 시계열 예측 모델을 학습하도록 AutoML 설정을 참조하세요.

AutoML의 지연 기능화

AutoML은 예측 수평선에 해당하는 지연 기능을 생성합니다. 이 섹션에서는 예측 범위가 3이고 대상 지연 순서가 1인 모델의 AutoML에서 지연 기능화를 살펴봅니다. 다음 표에서는 월별 시계열에 대한 모델 데이터 및 지연 기능을 제공합니다.

표 1: 원래 시계열

날짜 $y_t$
1/1/2001 0
2/1/2001 10
3/1/2001 20
4/1/2001 30
5/1/2001 40
6/1/2001 50

첫 번째 단계에서는 horizon $h=1$에 대해서만 지연 기능을 생성합니다. 다음 표에서는 프로세스에서 개별 지평선을 사용하여 지연 기능화를 완료하는 이유를 보여 줍니다.

표 2: horizon $h=1$에 대한 지연 기능화

날짜 $y_t$ 기원 $y_{t-1}$ $h$
1/1/2001 0 12/1/2000 - 1
2/1/2001 10 1/1/2001 0 1
3/1/2001 20 2/1/2001 10 1
4/1/2001 30 3/1/2001 20 1
5/1/2001 40 4/1/2001 30 1
6/1/2001 50 5/1/2001 40 1

AutoML은 단일 관찰을 통해 $y_t$ 열을 아래로 이동하여 표 1의 데이터에서 테이블 2의 데이터를 생성합니다. 표 2~5에는 지연 기능이 시작된 날짜를 표시하는 원본 열이 포함되어 있습니다.

다음 단계에서는 예측 수평선 $h=2$에 대해서만 지연 기능을 생성합니다.

표 3: 예측 수평선에 대한 지연 기능화 $h=2$

날짜 $y_t$ 기원 $y_{t-2}$ $h$
1/1/2001 0 11/1/2000 - 2
2/1/2001 10 12/1/2000 - 2
3/1/2001 20 1/1/2001 0 2
4/1/2001 30 2/1/2001 10 2
5/1/2001 40 3/1/2001 20 2
6/1/2001 50 4/1/2001 30 2

AutoML은 $y_t$ 열을 두 개의 관찰으로 아래로 이동하여 표 1의 데이터에서 테이블 3의 데이터를 생성합니다.

다음 단계에서는 예측 수평선 $h=3$에 대해서만 지연 기능을 생성합니다.

표 4: 예측 수평선에 대한 지연 기능화 $h=3$

날짜 $y_t$ 기원 $y_{t-3}$ $h$
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 3/1/2001 20 3

마지막 단계에서는 테이블 1, 2 및 3의 데이터를 연결하고 행을 다시 정렬합니다.

표 5: 지연 기능화 완료

날짜 $y_t$ 기원 $y_{t-1}^{(h)}$ $h$
1/1/2001 0 12/1/2000 - 1
1/1/2001 0 11/1/2000 - 2
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 1/1/2001 0 1
2/1/2001 10 12/1/2000 - 2
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 2/1/2001 10 1
3/1/2001 20 1/1/2001 0 2
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 3/1/2001 20 1
4/1/2001 30 2/1/2001 10 2
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 4/1/2001 30 1
5/1/2001 40 3/1/2001 20 2
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 4/1/2001 40 1
6/1/2001 50 4/1/2001 30 2
6/1/2001 50 3/1/2001 20 3

표 5에서 지연 열은 특정 수평선과 관련하여 지연이 생성되었음을 반영하기 위해 $y_{t-1}^{(h)}$로 이름이 바뀝니다. 표 5에서는 수평선과 관련하여 생성된 지연을 이전 테이블에서 지연을 생성하는 기존의 방법에 매핑할 수 있는 방법을 보여 줍니다.

표 5는 AutoML이 회귀 모델에서 직접 예측할 수 있도록 학습 데이터에 적용하는 데이터 확대의 예입니다. 구성에 지연 기능이 포함된 경우 AutoML은 정수 값 수평선 기능과 함께 수평선 종속 지연을 만듭니다. AutoML 예측 회귀 모델은 ARIMA와 같이 재귀적으로 정의된 모델과 달리 $h-1$의 예측과 관계없이 수평선 $h$에서 예측을 수행할 수 있습니다.

지연 기능화에 대한 고려 사항

모델의 지연 기능화와 관련된 몇 가지 고려 사항이 있습니다. 다음 섹션을 검토하여 시나리오에 대한 잠재적인 작업을 식별합니다.

데이터 세트 크기 증가

AutoML에서 수평선 종속 지연 기능을 생성하면 모델 데이터 세트에 새 행이 추가됩니다 . 새 행 수는 예측 수평선에 비례합니다.

데이터 세트 크기가 증가하면 더 작은 컴퓨팅 노드 또는 데이터 세트 크기가 이미 큰 경우 메모리 부족 오류가 발생할 수 있습니다. AutoML 예측에 대한 FAQ(질문과 대답)에서 이 문제를 해결하는 솔루션을 찾을 수 있습니다.

지연 순서 및 예측 수평선 분리

AutoML 지연 전략은 지연 순서와 예측 수평선을 분리합니다. 예측 수평선이 7이고 AutoML에서 지연 기능을 사용하려고 하는 경우를 가정해 보겠습니다. 이 시나리오에서는 전체 예측 수평선에 대한 예측을 보장하기 위해 지연 순서를 7로 설정할 필요가 없습니다. AutoML은 수평선과 관련하여 지연을 생성하므로 지연 순서를 1로 설정할 수 있습니다. AutoML은 데이터를 보강하므로 모든 주문의 지연 시간이 예측 범위까지 유효합니다.