Informazioni sui requisiti per un modello Time Series (Esercitazione intermedia sul data mining)
Quando si preparano i dati per l'utilizzo in un modello di previsione, è necessario assicurarsi che i dati contengano una sola colonna che possa essere utilizzata per identificare i passaggi in una serie temporale. Tale colonna verrà utilizzata come colonna Key Time e deve contenere valori numerici univoci. Se vi sono gap nei dati, fatta eccezione per l'inizio o la fine di una serie, è possibile utilizzare il parametro MISSING_VALUE_SUBSTITUTION per riempire la serie. Analysis Services fornisce diverse opzioni per sostituire i dati mancanti con valori, come ad esempio l'utilizzo di medie o costanti.
Se si prevede di analizzare più serie di dati, è necessario assicurarsi che tutte le serie inizino e terminino alla stessa data.
In questa attività si esploreranno i dati della serie temporale creando una semplice tabella pivot in Business Intelligence Development Studio. Verrà anche descritto come individuare e gestire i gap nei dati.
Per identificare la chiave temporale per il modello di previsione
Nel riquadro SalesByRegion.dsv [Progettazione] fare clic con il pulsante destro del mouse sulla tabella vTimeSeries, quindi selezionare Esplora dati.
Verrà visualizzata una nuova scheda, denominata Esplora tabella vTimeSeries. Questa scheda contiene quattro schede: Tabella, Tabella pivot, Grafico e Grafico pivot.
Nella scheda Tabella fare clic sul pulsante Opzioni di campionamento a destra delle schede.
Nella finestra di dialogo Opzioni di esplorazione dati si noti che il metodo di campionamento predefinito, sotto Metodi di campionamento, consiste nell'utilizzare l'opzione In ordine fino al conteggio campione e campionare le prime 5000 righe.
Impostare Metodo di campionamento su Casuale e Conteggio campione su 1000, quindi scegliere OK.
Nota
La modifica delle opzioni di campionamento non influisce sui dati utilizzati per il data mining. I grafici e le tabelle sono solo strumenti per esplorare e comprendere i dati.
Nella scheda Tabella esaminare i dati utilizzati nelle colonne TimeIndex e Reporting Date.
Entrambe sono sequenze con valori univoci, tuttavia si desidera controllare il tipo di dati delle colonne.
Nota
Se la colonna Reporting Date non è visibile, probabilmente si dispone di una versione precedente del database AdventureWorksDW. Questa esercitazione richiede il database AdventureWorksDW2008R2, per sfruttare la nuova funzionalità per date e ore di SQL Server 2008. Per ulteriori informazioni sulle modifiche di date e ore, vedere Modifiche che possono causare problemi di funzionamento apportate alle caratteristiche del Motore di database in SQL Server 2008 R2.
Fare clic sulla scheda SalesByRegion.dsv [Progettazione].
Selezionare la colonna Reporting Date.
La finestra Proprietà indica che il campo TimeIndex dispone del tipo di dati System.Int32, mentre il campo Reporting Date dispone del tipo di dati System.DateTime. L'algoritmo Microsoft Time Series non richiede un tipo di dati datetime, ma solo che i valori siano distinti e ordinati. Pertanto, qualsiasi colonna può essere utilizzata come chiave temporale per il modello di previsione. Tuttavia, poiché si desidera rappresentare la previsione dei dati sulle vendite tramite date del calendario, si utilizzerà la colonna Reporting Date come identificatore univoco della serie.
Per impostare la chiave nella vista origine dati
Nel riquadro SalesByRegion.dsv selezionare la tabella vTimeSeries.
Fare clic con il pulsante destro del mouse sulla colonna Reporting Date, quindi selezionare Imposta chiave primaria logica.
Per verificare la presenza di gap nella serie di dati tramite un grafico pivot
Nel riquadro SalesByRegion.dsv [Progettazione] fare clic con il pulsante destro del mouse sulla tabella vTimeSeries, quindi selezionare Esplora dati.
Fare clic sulla scheda Tabella pivot.
Nella finestra di dialogo Elenco campi tabella pivot selezionare i campi Quantity e Amount e trascinarli nell'area Rilasciare qui i campi Totali o Dettaglio della tabella.
Analogamente, trascinare il campo TimeIndex nella casella Rilasciare qui i campi colonna.
Nota
Il campo TimeIndex non è il campo che si utilizzerà per rappresentare la serie temporale, ma viene fornito per compatibilità con le versioni precedenti. Inoltre, il campo TimeIndex fornisce una visualizzazione più semplice della serie che è possibile utilizzare quando si esplorano i dati nel grafico pivot.
Trascinare il campo ModelRegion nella casella Rilasciare qui i campi riga.
La tabella pivot creata mostrerà l'elenco dei prodotti e delle aree nella colonna sinistra, seguito da colonne che contengono la quantità e l'importo delle vendite per ogni mese e anno del calendario.
Trascinare la barra di scorrimento verso destra per visualizzare la data di inizio dei dati sulle vendite per la serie T1000.
È possibile vedere da questa tabella che non vi sono dati per la linea di prodotti T1000 fino a luglio 2003. Un importante requisito dell'algoritmo Microsoft Time Series in SQL Server 2008 è quello per cui tutte le serie incluse in un unico modello devono disporre dello stesso punto finale. Poiché il modello di bicicletta T1000 è stato introdotto nel 2003, i dati per questa serie iniziano più tardi rispetto agli altri modelli di bicicletta, ma la serie termina in corrispondenza della stessa data. I dati sono pertanto accettabili.
Modificare il campo utilizzato per rappresentare la serie temporale trascinando TimeIndex fuori dalla tabella.
Trascinare uno dei campi seguenti da Elenco campi tabella pivot nella casella Rilasciare qui i campi colonna. Provare a visualizzare in modi diversi la serie temporale, trascinando colonne fuori dalla tabella o selezionando aggregazioni differenti, ad esempio trimestre o mese.
ReportingDate
ReportingDate By Week
ReportingDate By Month
Gestione di dati mancanti (facoltativo)
Se in una serie mancano alcuni dati, è possibile che venga visualizzato un errore quando si tenta di elaborare il modello. Esistono diversi modi per risolvere il problema relativo ai dati mancanti:
Lasciare che Analysis Services riempia i valori mancanti, calcolando una media o utilizzando un valore precedente. È possibile eseguire questa operazione impostando un parametro quando si crea il modello di data mining. Per ulteriori informazioni, vedere Riferimento tecnico per l'algoritmo Microsoft Time Series.
Modificare l'origine dati o filtrare la vista sottostante per eliminare la serie o sostituire valori. È possibile eseguire questa operazione nell'origine dati relazionale oppure è possibile modificare la vista origine dati creando query denominate o calcoli denominati. Per ulteriori informazioni, vedere Progettazione di viste origine dati (Analysis Services). Un'attività successiva in questa lezione fornisce un esempio di come compilare una query denominata e un calcolo personalizzato.
In questo scenario alcuni dati mancano all'inizio di una serie, ma tutte le serie terminano alla stessa data e non vi sono valori mancanti. Non è pertanto necessario apportare ulteriori modifiche, perché i dati soddisfano i requisiti per un modello Time Series.
Per chiudere Progettazione vista origine dati
- Fare clic con il pulsante destro del mouse sulla scheda Esplora tabella vTimeSeries, quindi scegliere Chiudi.
Attività successiva della lezione
Creazione di una struttura e di un modello di previsione (Esercitazione intermedia sul data mining)