Condividi tramite


Esplorazione del modello Sequence Clustering (Esercitazione intermedia sul data mining)

 

Si applica a: SQL Server 2016 Preview

Dopo aver creato il Sequence Clustering with Region modello, è possibile esaminarlo utilizzando il Microsoft Visualizzatore Sequence Clustering nel Visualizzatore modello di Data Mining scheda Progettazione modelli di Data Mining. Il Microsoft Visualizzatore Sequence Clustering contiene cinque schede: diagramma dei Cluster, profili Cluster, caratteristiche Cluster, ClusterDiscrimination, e le transizioni di stato. Per ulteriori informazioni su come utilizzare questo visualizzatore, vedere visualizzare un modello utilizzando il visualizzatore Microsoft Sequence Clustering.

  • Scheda Diagramma dei cluster

  • Scheda Profili cluster

  • Scheda Caratteristiche cluster

  • Scheda Analisi discriminante tra cluster

  • Scheda Transizioni di stato

  • Generic Content Tree Viewer

Scheda Diagramma dei cluster

Il diagramma dei Cluster scheda vengono visualizzati graficamente i cluster individuati dall'algoritmo nel database. Il layout del diagramma rappresenta la relazione tra i cluster, con i cluster simili raggruppati. Per impostazione predefinita, l'ombreggiatura di ogni nodo rappresenta la densità di tutti i case nel cluster: quanto più scura appare l'ombreggiatura del nodo, maggiore sarà il numero di case contenuti. È possibile modificare il significato dell'ombreggiatura dei nodi in modo da rappresentare il supporto, all'interno di ogni cluster, di un attributo e uno stato.

È inoltre possibile rinominare i cluster per facilitare l'identificazione e l'utilizzo dei cluster di destinazione. In questa esercitazione verranno rinominati il cluster con la percentuale più elevata di clienti dell'area del Pacifico e il cluster che contiene il maggior numero di case.

Nota


I case assegnati a cluster specifici potrebbero cambiare quando si rielabora il modello, a seconda dei dati e dei parametri del modello stesso. Inoltre, se i cluster vengono rinominati, i nomi andranno persi quando si rielabora il modello di data mining.

Per cambiare l'attributo utilizzato per evidenziare i cluster

  1. Nel variabile ombreggiatura elenco, selezionare modello.

  2. Selezionare Cycling Cap nel stato elenco.

    Il diagramma verrà aggiornato per visualizzare la concentrazione del prodotto selezionato in ognuno dei cluster. Il cluster caratterizzato dall'ombreggiatura più scura contiene la densità maggiore di berretti da ciclista (Cycling Cap). È possibile modificare la variabile ombreggiatura per utilizzare qualsiasi stato di qualsiasi colonna di input.

  3. Nel variabile ombreggiatura elenco, selezionare popolazione.

    Impostando la variabile ombreggiatura su Popolazione, il diagramma viene aggiornato per confrontare i cluster in base alla dimensione. Il cluster con l'ombreggiatura più scura contiene più case rispetto agli altri cluster.

Per rinominare i nodi del modello

  1. Modifica variabile ombreggiatura a area, e impostare stato a Pacifico.

  2. Evidenziare il nodo più scuro del grafico.

  3. Fare doppio clic su questo cluster e selezionare Rinomina Cluster.

  4. Digitare il nomeCluster Pacifico.

  5. Modificare il valore di variabile ombreggiatura a popolazione.

  6. Nel grafico aggiornato individuare il cluster più scuro, che dovrebbe corrispondere al cluster più grande. Se non si è in grado di individuare il cluster più grande in base all'ombreggiatura, posizionare il mouse su ogni cluster e visualizzare la descrizione comando, quindi scegliere il cluster che contiene il maggior numero di case.

  7. Fare doppio clic su questo cluster e selezionare Rinomina Cluster. Digitare il nuovo nome, Cluster più grande.

È possibile eseguire il drill-through dal nodo che rappresenta il cluster per visualizzare i dettagli dei case contenuti in ogni cluster. Questa operazione può essere utile se si desidera intraprendere determinate azioni sulla base dei risultati dell'analisi, ad esempio inviare un messaggio di posta elettronica a un cliente. È inoltre possibile esplorare gli altri attributi dei case inclusi nella struttura ma non utilizzati nel modello, ad esempio Region e IncomeGroup. Per ulteriori informazioni sul drill-through nei case sottostanti da modelli di data mining, vedere query drill-through ( Data Mining ).

Per eseguire il drill-through nei dettagli dal diagramma dei cluster

  1. Fare doppio clic su Cluster Pacifico, selezionare drill-Through, quindi selezionare colonne struttura e modello.

    Il drill-Through verrà visualizzata la finestra di dialogo. Le colonne che non vengono utilizzati nel modello ma che sono disponibili per le query sono precedute da struttura.

    È possibile notare che questo cluster contiene prevalentemente clienti dell'area del Pacifico e solo alcuni clienti residenti in altre aree geografiche.

  2. Fare clic sul segno più nella colonna nidificata v Assoc Seq Line Items per visualizzare la sequenza di articoli in un determinato ordine cliente.

  3. Chiudi il drill-Through la finestra di dialogo.

    Nota


    Il riprodurre pulsante consente di rieseguire una query dei dati; tuttavia, rieseguendo la query non modifica i dati che viene visualizzati, a meno che il modello è stato aggiornato in modo dinamico in background da un altro processo.

Torna all'inizio

Scheda Profili cluster

Il profili Cluster scheda vengono visualizzate le sequenze in ogni cluster. I cluster sono elencati in singole colonne alla destra del separatore di stati colonna.

Nel Visualizzatore di modello riga descrive la distribuzione complessiva degli elementi in un cluster e Model. Samples riga contiene le sequenze di elementi. Ogni riga delle sequenze di colore in ogni cella del Model. Samples riga rappresenta il comportamento di un utente selezionato in modo casuale nel cluster.

Ogni colore in ogni singolo istogramma di sequenza rappresenta un modello di prodotto. In Legenda data mining vengono indicate le sequenze di prodotti utilizzando la codifica con colori e i nomi dei modelli dei prodotti. Se sono state aggiunte altre colonne al modello per il clustering, ad esempio Region o IncomeGroup, il visualizzatore conterrà una riga aggiuntiva per ogni colonna, in cui viene visualizzata la distribuzione di questi valori all'interno di ogni cluster.

Per visualizzare le sequenze più comuni in un cluster

  1. Fare doppio clic su di modello riga della colonna per il cluster Cluster più grande, e selezionare Mostra legenda.

    Il colore colonna contiene una barra ombreggiata che indica la frequenza degli articoli individuati nelle sequenze. Ogni articolo è rappresentato da un colore diverso. Il significato colonna elenca i nomi dei modelli di prodotto per ogni colore. Il distribuzione colonna indica la percentuale di case che contengono questo elemento in una sequenza.

  2. Chiudi il legenda Data Mining.

  3. Pulsante destro del mouse il Model. Samples riga della colonna con intestazione popolamento, e selezionare Mostra legenda.

  4. Analizzare l'elenco delle sequenze nel modello generale**.**

    In Legenda data mining sono elencate per prime le sequenze più comuni, pertanto è possibile notare che Mountain Tire Tube è il primo articolo in molte sequenze. Ciò indica che è molto probabile che un cliente includa per primo tra gli acquisti l'articolo Mountain Tire Tube.

Per eseguire il drill-through nei case dal visualizzatore cluster

  1. Scorrere verso il basso il riquadro attributi fino a individuare la riga per il area attributo.

    La riga contiene un istogramma per ogni cluster nel modello, oltre a un istogramma aggiuntivo per popolamento, vale a dire l'intero set di case utilizzati nel modello. Un istogramma è una barra contenente diversi colori, ognuno dei quali rappresenta un attributo, mentre la dimensione della sezione colorata relativa all'attributo rappresenta la percentuale di case caratterizzati da tale attributo.

  2. Confrontare gli istogrammi dei cluster rinominati Cluster Pacifico e Cluster più grande. Ogni cluster viene visualizzato in una colonna diversa.

    Entrambi sono identificati da un colore in tinta unita, ma i colori sono diversi.

  3. Nel area riga, posizionare il puntatore del mouse sull'istogramma colorato per Cluster più grande.

    I valori visualizzati nella descrizione comando indicano le percentuali effettive dei case di ogni area.

  4. Fare doppio clic su istogramma colorato nella area riga per Cluster Pacifico, selezionare drill-Through, quindi selezionare solo colonne modello.

  5. Spostare la barra di scorrimento per rivedere tutti i clienti contenuti in questo cluster.

    Eseguendo il drill-through nei dettagli è possibile notare anche questa volta che il cluster contiene prevalentemente ordini provenienti dall'area del Pacifico, oltre ad alcuni ordini provenienti dal Nord America e dall'Europa.

  6. Chiudi il drill-Through la finestra di dialogo.

Torna all'inizio

Scheda Caratteristiche cluster

Il caratteristiche Cluster scheda sono riepilogate le transizioni tra stati in un cluster mediante la visualizzazione di barre che rappresentano graficamente l'importanza del valore dell'attributo per il cluster selezionato. Il variabili colonna consente di trovare il modello sia importante per il cluster selezionato o popolamento: un valore specifico o la relazione tra valori, noti come transizione. Il valori colonna vengono forniti ulteriori dettagli sul valore o la transizione e probabilità colonna rappresenta graficamente il peso dell'attributo o della transizione.

Per visualizzare gli attributi importanti per un cluster

  1. Nel Cluster dall'elenco a discesa selezionare Cluster Pacifico.

    L'elenco verrà aggiornato per visualizzare le caratteristiche del cluster che è stato rinominato Cluster Pacifico. In questo cluster, la caratteristica più importante è area.

  2. Posizionare il puntatore del mouse sulla barra ombreggiata nella riga relativa area.

    La probabilità che il valore corrisponda a Pacific è molto elevata. Per ulteriori informazioni su come interpretare questi valori, vedere sequenza Clustering algoritmo riferimento tecnico per Microsoft.

  3. Esaminare l'elenco delle caratteristiche del cluster fino a individuare la prima riga di transizione.

  4. Una riga di transizione contiene il testo transizione nella variabili colonna e una combinazione di valori di attributi sequenziali nel valore colonna. La sequenza può inoltre contenere punti iniziali e valori mancanti.

    Si supponga ad esempio che la transizione includa il valore [Avvio] -> Road Tire Tube. Ciò significa che i clienti contenuti in questo cluster includono frequentemente l'articolo Road Tire Tube per primo tra gli acquisti. Questo comportamento potrebbe indicare che il prodotto è un articolo popolare molto ricercato dai clienti oppure semplicemente che il prodotto è facile da reperire sul sito riservato agli acquisti.

  5. Scorrere l'elenco fino a individuare la prima transizione che non dispone di [avvio] o mancante in essa contenuti.

    Individuare la transizione, si supponga ad esempio Touring Tire, Touring Tire Tube. Ciò significa che i clienti inclusi in questo cluster hanno frequentemente acquistato questi articoli in combinazione, esattamente nell'ordine indicato.

  6. Posizionare il mouse sulla barra ombreggiata relativa a questa transizione.

    La probabilità della transizione verrà visualizzata come percentuale.

  7. Nel Cluster dall'elenco a discesa selezionare popolazione (tutto).

    L'elenco degli attributi verrà aggiornato per visualizzare le caratteristiche di tutti gli ordini utilizzati per creare il modello. In questo modello di data mining è la caratteristica più importante per distinguere tra cluster area, con un valore di America del Nord.

Dall'analisi di queste attività emergono due aspetti. In primo luogo, per ottenere un numero significativo di combinazioni è necessario disporre di una quantità elevata di dati. Ad esempio, le sequenze con le probabilità più elevate sono molto probabilmente includano un [avvio] o mancante dello stato.

Il secondo è che esiste un forte impatto del clustering sugli attributi di area, che rende più difficile visualizzare i gruppi di sequenze. Si decide pertanto di creare un altro modello che utilizza solo le sequenze e non include le colonne relative a area o reddito.

Torna all'inizio

Scheda Analisi discriminante tra cluster

Il Analisi discriminante tra Cluster scheda consente di confrontare due cluster, per determinare gli attributi che distinguono un particolare cluster da un altro cluster. La scheda contiene quattro colonne: variabili, valori, Cluster 1, e Cluster 2. È possibile scegliere qualsiasi cluster da utilizzare come Cluster 1 e Cluster 2.

Il variabili colonna indica il nome dell'attributo, che può essere un nome di colonna o combinazione di nome di colonna e la parola transizione. Il valori colonna viene visualizzato il valore esatto dell'attributo o la transizione. Le barre ombreggiate nelle colonne per Cluster 1 e Cluster 2 indicano la forza dell'attributo nei cluster che si desidera confrontare. Più lunga è la barra, maggiore è la probabilità che il cluster includa case con tale attributo.

Per confrontare due cluster tramite la scheda Analisi discriminante tra cluster

  1. Nel Analisi discriminante tra Cluster scheda per Cluster 1, selezionare Cluster Pacifico.

    Per impostazione predefinita, la selezione per Cluster 2 diventa complemento del Pacifico * Cluster.

    L'attributo principale che distingue Cluster Pacifico da tutti gli altri casi è l'area geografica. L'influenza dell'attributo Region sul clustering nasconde gli altri attributi. Per evitare questo effetto, provare a eseguire il confronto tra alcuni dei cluster più piccoli. Questa operazione modifica l'elenco degli attributi, che potrebbe ora includere più transizioni tra modelli.

  2. Individuare una riga di transizione e posizionare il mouse sulla barra ombreggiata.

    Gli elementi di valori colonna può includere gli Stati e transizioni. L'ombreggiatura di ogni elemento indica il punteggio dell'analisi discriminante. Per ulteriori informazioni sul significato dei diversi punteggi, vedere Mining Model Content per i modelli di Clustering sequenza ( Analysis Services - Data Mining e 41 #;.

Torna all'inizio

Scheda Transizioni di stato

Nel delle transizioni di stato scheda, è possibile selezionare un cluster e sfogliare le transizioni di stato. Se si seleziona popolazione (tutto) dall'elenco a discesa del cluster, il diagramma mostra la distribuzione degli stati l'intero modello di data mining.

Ogni nodo del grafico rappresenta uno stato o un possibile valore delle sequenze che si sta tentando di analizzare. Il colore di sfondo dei nodi rappresenta la frequenza di tale stato. Alcuni stati sono collegati da linee che indicano la presenza di una transizione tra tali stati. È possibile spostare il dispositivo di scorrimento verso l'alto o verso il basso per modificare la soglia di probabilità delle transizioni. Ad alcuni nodi sono associati numeri che indicano la probabilità dello stato.

Per esplorare le relazioni nella scheda Transizioni di stato

  1. Nel delle transizioni di stato scheda visualizzatore modello di Data Mining selezionare Cluster Pacifico dall'elenco dei cluster. Assicurarsi che il Mostra etichette sui bordi opzione è selezionata.

    Il grafico verrà aggiornato per visualizzare le transizioni più comuni in questo cluster.

  2. Fare clic su un nodo collegato da una linea a un altro nodo.

    Il grafico verrà aggiornato per evidenziare i nodi correlati. Il valore numerico accanto alla linea indica la probabilità della transizione.

  3. Generare il dispositivo di scorrimento fino a tutti i collegamenti, per aumentare il numero di transizioni incluse nel grafico.

  4. Selezionare popolazione (tutto) da Cluster.

    Si noti che quando si carica un cluster diverso, vengono ripristinate le impostazioni di visualizzazione predefinite del grafico, pertanto il dispositivo di scorrimento viene ricollocato in posizione centrale.

  5. Fare clic sul nodo più scuro del grafico, che deve essere Sport-100.

    Si noti che questo prodotto non è collegato da alcuna linea ad altri prodotti.

  6. Spostare il dispositivo di scorrimento verso l'alto di uno spazio, per aumentare il numero di transizioni incluse nel grafico. Non sono mai arrivati alla tutti i collegamenti ancora.

    Il grafico verrà aggiornato con l'aggiunta di diverse transizioni, nessuna delle quali include tuttavia il modello Sport-100.

  7. Spostare il dispositivo di scorrimento fino al tutti i collegamenti. Fare clic sul nodo Sport-100, se non è già selezionato.

    Il grafico verrà aggiornato con l'aggiunta di numerose transizioni che includono il prodotto Sport-100. La direzione della freccia della linea di connessione indica se l'articolo Sport-100 è stato selezionato come primo o secondo articolo nella coppia.

  8. Fare clic sul nodo relativo a Touring Tire e riposizionare il dispositivo di scorrimento al centro.

    In un primo momento sono presenti numerose linee di transizione che collegano Touring Tire agli altri prodotti, ma alzando la soglia di probabilità le transizioni meno probabili vengono eliminate dal grafico, lasciando solo la transizione Touring Tire > Touring Tire Tube. Questa transizione indica che se un cliente include un articolo Touring Tire tra gli acquisti, esiste una forte probabilità che il cliente inserisca successivamente un articolo Touring Tire Tube.

Torna all'inizio

Generic Content Tree Viewer

Questo visualizzatore può essere utilizzato per tutti i modelli, indipendentemente dall'algoritmo o dal tipo di modello. Il MicrosoftGeneric Content Tree Viewer è disponibile il Visualizzatore elenco a discesa.

Un albero dei contenuti è una rappresentazione di un modello di data mining sotto forma di una serie di nodi, in cui ogni nodo rappresenta le informazioni relative ai dati di training. Il nodo può contenere un modello, un set di regole, un cluster o la definizione di un intervallo di date che condividono alcuni attributi. Il contenuto esatto del nodo differisce a seconda dell'algoritmo e dell'attributo stimabile, ma la rappresentazione generale del contenuto è la stessa.

È possibile espandere ogni nodo per aumentare il livello di dettaglio e copiare il contenuto di qualsiasi nodo negli Appunti. Per altre informazioni, vedere Visualizzare un modello usando Microsoft Generic Content Tree Viewer.

Per visualizzare i dettagli di un modello Sequence Clustering tramite Generic Content Tree Viewer

  1. Nel Visualizzatore modello di Data Mining selezionare il Visualizzatore elenco e selezionare Microsoft Generic Content Tree viewer.

  2. Nel didascalia del nodo riquadro, fare clic su Cluster Pacifico (1).

    Il nome di questo nodo è composto dal nome descrittivo assegnato al cluster e dall'ID nodo sottostante. È possibile utilizzare gli ID nodo per eseguire il drill-down in ulteriori dettagli relativi al modello.

  3. Espandere il primo nodo figlio, denominato sequenza per cluster 1 livello.

    Il nodo del livello di sequenza relativo a un cluster contiene dettagli sugli stati e le transizioni inclusi in tale cluster. È possibile utilizzare questi dettagli, disponibili nella colonna NODE_DISTRIBUTION, per esplorare le sequenze e gli stati di ogni cluster o dell'intero modello.

  4. Continuare a espandere i nodi e a visualizzare i dettagli nel visualizzatore HTML.

Per ulteriori informazioni sul contenuto del modello di data mining e come utilizzare i dettagli nel visualizzatore, vedere contenuto del modello di Data Mining per i modelli di Clustering sequenza ( Analysis Services - Data Mining e 41 #;.

Torna all'inizio

Attività successiva della lezione

Creazione di un modello di Clustering correlati Sequence ( esercitazione intermedia di Data Mining )

Vedere anche

Algoritmo Microsoft Sequence Clustering
Sequence Clustering Model Query Examples