Retardo de recursos para previsão de séries temporais no AutoML
Este artigo descreve como o machine learning automatizado (AutoML) no Azure Machine Learning cria recursos de retardo e agregação de rolagem em janela deslizante para ajudar a prever modelos de regressão de séries temporais. Os recursos de AutoML usam dados históricos do modelo, o que pode aumentar significativamente a precisão do modelo, ajudando-o a aprender padrões correlacionais no tempo.
Se você estiver interessado em aprender mais sobre a metodologia de previsão no AutoML, veja Visão geral dos métodos de previsão no AutoML. Para explorar exemplos de treinamento de modelos de previsão no AutoML, veja Configurar o AutoML para treinar um modelo de previsão de séries temporais com o SDK e CLI.
Definição de recursos de retardo no AutoML
O AutoML gera recursos de retardo que correspondem ao horizonte de previsão. Esta seção explora a definição de recursos de retardo no AutoML para um modelo com um horizonte de previsão de três e ordem de retardo de um. As tabelas a seguir apresentam os dados do modelo e os recursos de retardo para uma série temporal mensal.
Tabela 1: Série temporal original
Data | $y_t$ |
---|---|
1/1/2001 | 0 |
2/1/2001 | 10 |
3/1/2001 | 20 |
4/1/2001 | 30 |
5/1/2001 | 40 |
6/1/2001 | 50 |
A primeira etapa gera o recurso de retardo apenas para o horizonte $h=1$. As tabelas subsequentes demonstram por que o processo usa horizontes individuais para completar a definição de recursos de retardo.
Tabela 2: Definição de recursos de retardo para o horizonte $h=1$
Data | $y_t$ | Origem | $y_{t-1}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 12/1/2000 | - | 1 |
2/1/2001 | 10 | 1/1/2001 | 0 | 1 |
3/1/2001 | 20 | 2/1/2001 | 10 | 1 |
4/1/2001 | 30 | 3/1/2001 | 20 | 1 |
5/1/2001 | 40 | 4/1/2001 | 30 | 1 |
6/1/2001 | 50 | 5/1/2001 | 40 | 1 |
O AutoML gera os dados da Tabela 2 a partir dos dados da Tabela 1, deslocando a coluna $y_t$ para baixo em uma observação. As Tabelas 2 a 5 incluem a coluna Origem para mostrar as datas de onde os recursos de retardo se originam.
A próxima etapa gera o recurso de retardo apenas para o horizonte de previsão $h=2$.
Tabela 3: Definição de recursos de retardo para o horizonte de previsão $h=2$
Data | $y_t$ | Origem | $y_{t-2}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 11/1/2000 | - | 2 |
2/1/2001 | 10 | 12/1/2000 | - | 2 |
3/1/2001 | 20 | 1/1/2001 | 0 | 2 |
4/1/2001 | 30 | 2/1/2001 | 10 | 2 |
5/1/2001 | 40 | 3/1/2001 | 20 | 2 |
6/1/2001 | 50 | 4/1/2001 | 30 | 2 |
O AutoML gera os dados da Tabela 3 a partir dos dados da Tabela 1, deslocando a coluna $y_t$ para baixo em duas observações.
A próxima etapa gera o recurso de retardo apenas para o horizonte de previsão $h=3$.
Tabela 4: Definição de recursos de retardo para o horizonte de previsão $h=3$
Data | $y_t$ | Origem | $y_{t-3}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 10/1/2000 | - | 3 |
2/1/2001 | 10 | 11/1/2000 | - | 3 |
3/1/2001 | 20 | 12/1/2000 | - | 3 |
4/1/2001 | 30 | 1/1/2001 | 0 | 3 |
5/1/2001 | 40 | 2/1/2001 | 10 | 3 |
6/1/2001 | 50 | 3/1/2001 | 20 | 3 |
A etapa final concatena os dados das Tabelas 1, 2 e 3, e reorganiza as linhas.
Tabela 5: Definição de recursos de retardo completo
Data | $y_t$ | Origem | $y_{t-1}^{(h)}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 12/1/2000 | - | 1 |
1/1/2001 | 0 | 11/1/2000 | - | 2 |
1/1/2001 | 0 | 10/1/2000 | - | 3 |
2/1/2001 | 10 | 1/1/2001 | 0 | 1 |
2/1/2001 | 10 | 12/1/2000 | - | 2 |
2/1/2001 | 10 | 11/1/2000 | - | 3 |
3/1/2001 | 20 | 2/1/2001 | 10 | 1 |
3/1/2001 | 20 | 1/1/2001 | 0 | 2 |
3/1/2001 | 20 | 12/1/2000 | - | 3 |
4/1/2001 | 30 | 3/1/2001 | 20 | 1 |
4/1/2001 | 30 | 2/1/2001 | 10 | 2 |
4/1/2001 | 30 | 1/1/2001 | 0 | 3 |
5/1/2001 | 40 | 4/1/2001 | 30 | 1 |
5/1/2001 | 40 | 3/1/2001 | 20 | 2 |
5/1/2001 | 40 | 2/1/2001 | 10 | 3 |
6/1/2001 | 50 | 4/1/2001 | 40 | 1 |
6/1/2001 | 50 | 4/1/2001 | 30 | 2 |
6/1/2001 | 50 | 3/1/2001 | 20 | 3 |
Na Tabela 5, a coluna de retardo é renomeada para $y_{t-1}^{(h)}$ para refletir que o retardo foi gerado em relação a um horizonte específico. A Tabela 5 mostra como os retardos gerados em relação ao horizonte podem ser mapeados para as maneiras convencionais de gerar retardos nas tabelas anteriores.
A Tabela 5 é um exemplo do aumento de dados que o AutoML aplica aos dados de treinamento para habilitar a previsão direta de modelos de regressão. Quando a configuração inclui recursos de retardo, o AutoML cria retardos dependentes do horizonte, junto com um recurso de horizonte representado por um valor inteiro. Os modelos de regressão de previsão do AutoML podem fazer uma previsão no horizonte $h$ sem considerar a previsão em $h-1$, em contraste com modelos definidos recursivamente como o ARIMA.
Considerações sobre definição de recursos de retardo
Existem algumas considerações relacionadas a definição de recursos de retardo para um modelo. Revise as seções a seguir para identificar ações potenciais para seu cenário.
Crescimento no tamanho do conjunto de dados
Quando o AutoML gera recursos de retardo dependentes do horizonte, ele adiciona novas linhas ao conjunto de dados do modelo. O número de novas linhas é proporcional ao horizonte de previsão.
O crescimento no tamanho do conjunto de dados pode levar a erros de falta de memória em nós de computação menores ou quando o tamanho do conjunto de dados já é grande. Você pode encontrar soluções para resolver esse problema nas Perguntas Frequentes (FAQ) para previsão no AutoML.
Desacoplamento da ordem de retardo e horizonte de previsão
A estratégia de retardo do AutoML desacopla a ordem de retardo e o horizonte de previsão. Suponha que seu horizonte de previsão seja sete, e você queira que o AutoML use recursos de retardo. Nesse cenário, você não precisa definir a ordem de retardo como sete para garantir a previsão em todo o horizonte de previsão. Como o AutoML gera retardo em relação ao horizonte, você pode definir a ordem de retardo como um. O AutoML complementa os dados, tornando válidas os retardos de qualquer ordem até o horizonte de previsão.