Informazioni sui requisiti per un modello Time Series (Esercitazione intermedia sul data mining)
Quando si preparano i dati per l'utilizzo in un modello di previsione, è necessario assicurarsi che i dati contengano una colonna che possa essere utilizzata per identificare i passaggi nella serie temporale. Tale colonna sarà designata come colonna Key Time
. Essendo una chiave, nella colonna devono essere contenuti valori univoci.
La scelta dell'unità corretta per la colonna Key Time
è una parte importante dell'analisi. Si supponga ad esempio che i dati di vendita vengano aggiornati una volta al minuto. Non è necessario utilizzare minuti come unità per la serie temporale. Potrebbe invece risultare più significativo eseguire il rollup dei dati di vendita per giorno, settimana o persino per mese. Se non si è certi di quale unità di tempo utilizzare, è possibile creare una nuova vista origine dati per ogni aggregazione e compilare i modelli correlati per verificare se emergono tendenze diverse a ogni livello di aggregazione.
Per questa esercitazione, i dati di vendita vengono raccolti su base giornaliera nel database transazionale delle vendite, ma ai fini del data mining i dati sono stati preaggregati per mese utilizzando una vista.
È inoltre auspicabile che nei dati utilizzati per l'analisi sia presente il minor numero di gap possibile. Se si prevede di analizzare più serie di dati, è preferibile che tutte le serie inizino e terminino nella stessa data. Se nei dati sono presenti gap, ma questi non si trovano all'inizio o alla fine di una serie, è possibile utilizzare il parametro MISSING_VALUE_SUBSTITUTION per riempire la serie. Analysis Services offre anche diverse opzioni per sostituire i dati mancanti con valori, ad esempio usando mezzi o costanti.
Avviso
Gli strumenti Grafico pivot e Tabella pivot inclusi nelle versioni precedenti della finestra di progettazione Vista origine dati non vengono più forniti. È consigliabile identificare le lacune nei dati delle serie temporali in anticipo usando strumenti come Data Profiler incluso in Integration Services.
Per identificare la chiave temporale per il modello di previsione
Nel riquadro SalesByRegion.dsv [Progettazione], fare clic con il pulsante destro del mouse sulla tabella vTimeSeries e quindi scegliere Esplora dati.
Verrà visualizzata una nuova scheda denominata Esplora tabella vTimeSeries.
Nella scheda Tabella esaminare i dati usati nelle colonne TimeIndex e Data di report.
Sono entrambe sequenze con valori univoci ed entrambe possono essere utilizzate come chiave di serie temporale. I tipi di dati delle colonne sono tuttavia diversi. L'algoritmo Microsoft Time Series non richiede un tipo di dati
datetime
, ma solo che i valori siano distinti e ordinati. Pertanto, qualsiasi colonna può essere utilizzata come chiave temporale per il modello di previsione.Nell'area di progettazione della vista origine dati selezionare la colonna Data report e selezionare Proprietà. Fare quindi clic sulla colonna TimeIndex e selezionare Proprietà.
Il campo TimeIndex ha il tipo di dati System.Int32, mentre il campo Reporting Date ha il tipo di dati System.DateTime. Molti data warehouse convertono i valori data/ora in Integer e utilizzano la colonna Integer come chiave, per migliorare le prestazioni di indicizzazione. Se tuttavia si utilizza questa colonna, le stime verranno eseguite dall'algoritmo Microsoft Time Series utilizzando valori futuri, ad esempio 201014, 201014 e così via. Poiché si vuole rappresentare la previsione dei dati di vendita usando le date del calendario, si userà la colonna Data di creazione report come identificatore di serie univoco.
Per impostare la chiave nella vista origine dati
Nel riquadro SalesByRegion.dsv selezionare la tabella vTimeSeries.
Fare clic con il pulsante destro del mouse sulla colonna, sulla data di creazione di report e scegliere Imposta chiave primaria logica.
Gestione di dati mancanti (facoltativo)
Se in una serie mancano alcuni dati, è possibile che venga visualizzato un errore quando si tenta di elaborare il modello. Esistono diversi modi per risolvere il problema relativo ai dati mancanti:
È possibile lasciare che Analysis Services riempia i valori mancanti, calcolando una media o utilizzando un valore precedente. A tale scopo, impostare il parametro MISSING_VALUE_SUBSTITUTION nel modello di data mining. Per altre informazioni su questo parametro, vedere Microsoft Time Series Algorithm Technical Reference. Per informazioni su come modificare i parametri in un modello di data mining esistente, vedere Visualizzare o modificare i parametri dell'algoritmo.
È possibile modificare l'origine dati o filtrare la vista sottostante per eliminare la serie incomplete o sostituire valori. È possibile eseguire questa operazione nell'origine dati relazionale oppure modificare la vista origine dati creando query denominate personalizzate o calcoli denominati. Per altre informazioni, vedere Viste origine dati in modelli multidimensionali. Un'attività successiva in questa lezione fornisce un esempio di come compilare una query denominata e un calcolo personalizzato.
Per questo scenario mancano alcuni dati all'inizio di una serie, ovvero non sono presenti dati per la linea di prodotti T1000 fino a luglio 2007. Diversamente tutte le serie terminano nella stessa data e non vi sono valori mancanti.
Il requisito dell'algoritmo Microsoft Time Series è che qualsiasi serie inclusa in un singolo modello deve avere lo stesso punto finale . Poiché il modello di bicicletta T1000 è stato introdotto nel 2007, i dati per questa serie iniziano più tardi rispetto agli altri modelli di bicicletta, ma la serie termina nella stessa data. I dati sono pertanto accettabili.
Per chiudere Progettazione vista origine dati
- Fare clic con il pulsante destro del mouse sulla scheda, esplorare la tabella vTimeSeries e selezionare Chiudi.
Attività successiva della lezione
Creazione di una struttura e di un modello di previsione (Esercitazione intermedia sul data mining)