AutoML에서 시계열 예측을 위한 지연 기능
이 문서에서는 Azure Machine Learning의 AutoML(자동화된 기계 학습)이 시계열 회귀 모델을 예측하는 데 도움이 되는 지연 및 롤링 기간 집계 기능을 만드는 방법을 설명합니다. AutoML 기능은 모델에서 시간 내 상관 관계 패턴을 학습하도록 지원하여 모델 정확도를 크게 높일 수 있는 기록 모델 데이터를 사용합니다.
AutoML의 예측 방법론에 대해 자세히 알아보려면 AutoML의 예측 방법 개요를 참조하세요. AutoML에서 예측 모델에 대한 학습 예제를 살펴보려면 SDK 및 CLI를 사용하여 시계열 예측 모델을 학습하도록 AutoML 설정을 참조하세요.
AutoML의 지연 기능화
AutoML은 예측 수평선에 해당하는 지연 기능을 생성합니다. 이 섹션에서는 예측 범위가 3이고 대상 지연 순서가 1인 모델의 AutoML에서 지연 기능화를 살펴봅니다. 다음 표에서는 월별 시계열에 대한 모델 데이터 및 지연 기능을 제공합니다.
표 1: 원래 시계열
날짜 | $y_t$ |
---|---|
1/1/2001 | 0 |
2/1/2001 | 10 |
3/1/2001 | 20 |
4/1/2001 | 30 |
5/1/2001 | 40 |
6/1/2001 | 50 |
첫 번째 단계에서는 horizon $h=1$에 대해서만 지연 기능을 생성합니다. 다음 표에서는 프로세스에서 개별 지평선을 사용하여 지연 기능화를 완료하는 이유를 보여 줍니다.
표 2: horizon $h=1$에 대한 지연 기능화
날짜 | $y_t$ | 기원 | $y_{t-1}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 12/1/2000 | - | 1 |
2/1/2001 | 10 | 1/1/2001 | 0 | 1 |
3/1/2001 | 20 | 2/1/2001 | 10 | 1 |
4/1/2001 | 30 | 3/1/2001 | 20 | 1 |
5/1/2001 | 40 | 4/1/2001 | 30 | 1 |
6/1/2001 | 50 | 5/1/2001 | 40 | 1 |
AutoML은 단일 관찰을 통해 $y_t$ 열을 아래로 이동하여 표 1의 데이터에서 테이블 2의 데이터를 생성합니다. 표 2~5에는 지연 기능이 시작된 날짜를 표시하는 원본 열이 포함되어 있습니다.
다음 단계에서는 예측 수평선 $h=2$에 대해서만 지연 기능을 생성합니다.
표 3: 예측 수평선에 대한 지연 기능화 $h=2$
날짜 | $y_t$ | 기원 | $y_{t-2}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 11/1/2000 | - | 2 |
2/1/2001 | 10 | 12/1/2000 | - | 2 |
3/1/2001 | 20 | 1/1/2001 | 0 | 2 |
4/1/2001 | 30 | 2/1/2001 | 10 | 2 |
5/1/2001 | 40 | 3/1/2001 | 20 | 2 |
6/1/2001 | 50 | 4/1/2001 | 30 | 2 |
AutoML은 $y_t$ 열을 두 개의 관찰으로 아래로 이동하여 표 1의 데이터에서 테이블 3의 데이터를 생성합니다.
다음 단계에서는 예측 수평선 $h=3$에 대해서만 지연 기능을 생성합니다.
표 4: 예측 수평선에 대한 지연 기능화 $h=3$
날짜 | $y_t$ | 기원 | $y_{t-3}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 10/1/2000 | - | 3 |
2/1/2001 | 10 | 11/1/2000 | - | 3 |
3/1/2001 | 20 | 12/1/2000 | - | 3 |
4/1/2001 | 30 | 1/1/2001 | 0 | 3 |
5/1/2001 | 40 | 2/1/2001 | 10 | 3 |
6/1/2001 | 50 | 3/1/2001 | 20 | 3 |
마지막 단계에서는 테이블 1, 2 및 3의 데이터를 연결하고 행을 다시 정렬합니다.
표 5: 지연 기능화 완료
날짜 | $y_t$ | 기원 | $y_{t-1}^{(h)}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 12/1/2000 | - | 1 |
1/1/2001 | 0 | 11/1/2000 | - | 2 |
1/1/2001 | 0 | 10/1/2000 | - | 3 |
2/1/2001 | 10 | 1/1/2001 | 0 | 1 |
2/1/2001 | 10 | 12/1/2000 | - | 2 |
2/1/2001 | 10 | 11/1/2000 | - | 3 |
3/1/2001 | 20 | 2/1/2001 | 10 | 1 |
3/1/2001 | 20 | 1/1/2001 | 0 | 2 |
3/1/2001 | 20 | 12/1/2000 | - | 3 |
4/1/2001 | 30 | 3/1/2001 | 20 | 1 |
4/1/2001 | 30 | 2/1/2001 | 10 | 2 |
4/1/2001 | 30 | 1/1/2001 | 0 | 3 |
5/1/2001 | 40 | 4/1/2001 | 30 | 1 |
5/1/2001 | 40 | 3/1/2001 | 20 | 2 |
5/1/2001 | 40 | 2/1/2001 | 10 | 3 |
6/1/2001 | 50 | 4/1/2001 | 40 | 1 |
6/1/2001 | 50 | 4/1/2001 | 30 | 2 |
6/1/2001 | 50 | 3/1/2001 | 20 | 3 |
표 5에서 지연 열은 특정 수평선과 관련하여 지연이 생성되었음을 반영하기 위해 $y_{t-1}^{(h)}$로 이름이 바뀝니다. 표 5에서는 수평선과 관련하여 생성된 지연을 이전 테이블에서 지연을 생성하는 기존의 방법에 매핑할 수 있는 방법을 보여 줍니다.
표 5는 AutoML이 회귀 모델에서 직접 예측할 수 있도록 학습 데이터에 적용하는 데이터 확대의 예입니다. 구성에 지연 기능이 포함된 경우 AutoML은 정수 값 수평선 기능과 함께 수평선 종속 지연을 만듭니다. AutoML 예측 회귀 모델은 ARIMA와 같이 재귀적으로 정의된 모델과 달리 $h-1$의 예측과 관계없이 수평선 $h$에서 예측을 수행할 수 있습니다.
지연 기능화에 대한 고려 사항
모델의 지연 기능화와 관련된 몇 가지 고려 사항이 있습니다. 다음 섹션을 검토하여 시나리오에 대한 잠재적인 작업을 식별합니다.
데이터 세트 크기 증가
AutoML에서 수평선 종속 지연 기능을 생성하면 모델 데이터 세트에 새 행이 추가됩니다 . 새 행 수는 예측 수평선에 비례합니다.
데이터 세트 크기가 증가하면 더 작은 컴퓨팅 노드 또는 데이터 세트 크기가 이미 큰 경우 메모리 부족 오류가 발생할 수 있습니다. AutoML 예측에 대한 FAQ(질문과 대답)에서 이 문제를 해결하는 솔루션을 찾을 수 있습니다.
지연 순서 및 예측 수평선 분리
AutoML 지연 전략은 지연 순서와 예측 수평선을 분리합니다. 예측 수평선이 7이고 AutoML에서 지연 기능을 사용하려고 하는 경우를 가정해 보겠습니다. 이 시나리오에서는 전체 예측 수평선에 대한 예측을 보장하기 위해 지연 순서를 7로 설정할 필요가 없습니다. AutoML은 수평선과 관련하여 지연을 생성하므로 지연 순서를 1로 설정할 수 있습니다. AutoML은 데이터를 보강하므로 모든 주문의 지연 시간이 예측 범위까지 유효합니다.
관련 콘텐츠
- AutoML을 사용하여 시계열 예측 모델 학습
- AutoML 예측에 대한 FAQ 찾아보기
- AutoML에서 기계 학습을 사용하여 예측 모델을 빌드하는 방법 살펴보기