Contenuto del modello di data mining (Analysis Services - Data mining)
In seguito alla progettazione e all'elaborazione di un modello di data mining mediante i dati della struttura di data mining sottostante, il modello di data mining è completo e contiene il contenuto del modello di data mining. È possibile utilizzare questo contenuto per eseguire stime o analisi di dati.
Il contenuto del modello di data mining include i metadati relativi al modello, statistiche sui dati e modelli individuati dall'algoritmo di data mining. A seconda dell'algoritmo utilizzato, il contenuto del modello può includere formule di regressione, le definizioni di regole e set di elementi, o pesi e altre statistiche.
Il contenuto del modello di data mining viene visualizzato in una struttura standard a prescindere dall'algoritmo utilizzato. È possibile esplorare la struttura tramite Microsoft Generic Content Tree Viewer in Business Intelligence Development Studio, quindi passare a un visualizzatore personalizzato per visualizzare il modo in cui le informazioni sono interpretate e visualizzate graficamente per ogni tipo di modello. È inoltre possibile creare query sul contenuto del modello di data mining con un client che supporti il set di righe dello schema MINING_MODEL_CONTENT. Per ulteriori informazioni, vedere Utilizzo dei modelli di data mining: Procedure (Analysis Services - Data mining).
In questa sezione viene illustrata la struttura di base del contenuto per tutti i tipi di modelli di data mining. Vengono descritti i tipi di nodo comuni al contenuto del modello di data mining e fornite istruzioni sull'interpretazione delle informazioni.
Struttura del contenuto del modello di data mining
Nodi
Contenuto del modello di data mining in base al tipo di algoritmo
Strumenti per la visualizzazione del contenuto di un modello di data mining
Strumenti per l'esecuzione di query sul contenuto di un modello di data mining
Struttura del contenuto del modello di data mining
Il contenuto di ciascun modello viene presentato come una serie di nodi. Un nodo è un oggetto all'interno di un modello di data mining che contiene i metadati e le informazioni su una parte del modello. I nodi sono disposti in una gerarchia e la loro disposizione esatta, nonché il significato della gerarchia, dipende dall'algoritmo utilizzato. Se ad esempio si crea un modello di albero delle decisioni, il modello può contenere più alberi collegati al nodo radice del modello; se si crea un modello di rete neurale, il modello può contenere una o più reti e un nodo di statistiche.
Il primo nodo di ogni modello è denominato nodo radice o nodo padre del modello. Ogni modello dispone di un nodo radice (NODE_TYPE = 1). Il nodo radice contiene in genere alcuni metadati relativi al modello e il numero di nodi figlio, ma poche informazioni aggiuntive sui modelli individuati dal modello.
Il numero di nodi figlio presenti nel nodo radice varia a seconda dell'algoritmo utilizzato per creare il modello. I nodi figlio hanno significati diversi e contengono contenuto diverso, a seconda dell'algoritmo e della profondità e complessità dei dati.
Torna all'inizio
Nodi
In un modello di data mining, un nodo è un contenitore generico in cui sono archiviate informazioni riguardanti tutto il modello o una parte di esso. La struttura di ogni nodo è sempre la stessa e contiene le colonne definite dal set di righe dello schema di data mining. Per ulteriori informazioni, vedere Set di righe DMSCHEMA_MINING_MODEL_CONTENT.
Ogni nodo include i relativi metadati, tra cui un identificatore univoco all'interno di ciascun modello, l'ID del nodo padre e il numero di nodi figlio presenti. I metadati identificano il modello di appartenenza del nodo e il catalogo del database in cui è archiviato quel modello specifico. Il contenuto aggiuntivo presente nel nodo varia in base al tipo di algoritmo utilizzato per creare il modello e potrebbe includere gli elementi seguenti:
Conteggio dei case nei dati di training che supporta un determinato valore stimato.
Statistiche, quali media, deviazione standard o varianza.
Coefficienti e formule.
Definizione di regole e puntatori secondari.
Frammenti XML che descrivono una parte del modello.
Elenco dei tipi di nodo
Nella tabella seguente sono elencati i diversi tipi di nodo restituiti nei modelli di data mining. Poiché ogni algoritmo elabora in modo diverso le informazioni, ciascun modello genera solo alcuni tipi specifici di nodi. Modificando l'algoritmo, il tipo di nodo potrebbe cambiare. Il contenuto di ogni nodo potrebbe inoltre cambiare se si rielabora il modello.
Nota
Se si utilizza un servizio di data mining diverso da quelli forniti in SQL Server 2008 Analysis Services o se si creano algoritmi plug-in personalizzati, potrebbero essere disponibili altri tipi di nodi personalizzati.
ID NODE_TYPE |
Etichetta del nodo |
Contenuto del nodo |
---|---|---|
1 |
Model |
Metadati e nodo di contenuto radice. Si applica a tutti i tipi di modello. |
2 |
Tree |
Nodo radice di un albero di classificazione. Si applica ai modelli di albero delle decisioni. |
3 |
Interior |
Nodo interno di divisione in un albero. Si applica ai modelli di albero delle decisioni. |
4 |
Distribution |
Nodo finale di un albero. Si applica ai modelli di albero delle decisioni. |
5 |
Cluster |
Cluster rilevato dall'algoritmo. Si applica ai modelli di clustering e ai modelli Sequence Clustering. |
6 |
Unknown |
Tipo di nodo sconosciuto. |
7 |
ItemSet |
Set di elementi rilevato dall'algoritmo. Si applica ai modelli di associazione o ai modelli Sequence Clustering. |
8 |
AssociationRule |
Regola di associazione rilevata dall'algoritmo. Si applica ai modelli di associazione o ai modelli Sequence Clustering. |
9 |
PredictableAttribute |
Attributo stimabile. Si applica a tutti i tipi di modello. |
10 |
InputAttribute |
Attributo di input. Si applica ai modelli di alberi delle decisioni e Naïve Bayes. |
11 |
InputAttributeState |
Statistiche relative agli stati di un attributo di input. Si applica ai modelli di alberi delle decisioni e Naïve Bayes. |
13 |
Sequence |
Nodo di livello superiore per un componente del modello Markov di un cluster di sequenza. Si applica ai modelli Sequence Clustering. |
14 |
Transition |
Matrice di transizione Markov. Si applica ai modelli Sequence Clustering. |
15 |
TimeSeries |
Nodo non radice di un albero di serie temporali. Si applica solo ai modelli Time Series. |
16 |
TsTree |
Nodo radice di un albero di serie temporali corrispondente a una serie temporale stimabile. Si applica ai modelli Time Series e solo se il modello è stato creato utilizzando il parametro MIXED. |
17 |
NNetSubnetwork |
Subnet. Si applica ai modelli di rete neurale. |
18 |
NNetInputLayer |
Gruppo che contiene i nodi del livello di input. Si applica ai modelli di rete neurale. |
19 |
NNetHiddenLayer |
Gruppi contenenti i nodi che descrivono il livello nascosto. Si applica ai modelli di rete neurale. |
21 |
NNetOutputLayer |
Gruppi che contengono i nodi del livello di output. Si applica ai modelli di rete neurale. |
21 |
NNetInputNode |
Nodo nel livello di input che corrisponde a un attributo di input con gli stati corrispondenti. Si applica ai modelli di rete neurale. |
22 |
NNetHiddenNode |
Nodo nel livello nascosto. Si applica ai modelli di rete neurale. |
23 |
NNetOutputNode |
Nodo nel livello di output. Questo nodo di solito corrisponde a un attributo di output e agli stati corrispondenti. Si applica ai modelli di rete neurale. |
24 |
NNetMarginalNode |
Statistiche marginali sul set di training. Si applica ai modelli di rete neurale. |
25 |
RegressionTreeRoot |
Nodo radice di un albero di regressione. Si applica ai modelli di regressione lineare e ai modelli di albero delle decisioni che contengono attributi continui di input. |
26 |
NaiveBayesMarginalStatNode |
Statistiche marginali sul set di training. Si applica ai modelli Naïve Bayes. |
27 |
ArimaRoot |
Nodo radice di un modello ARIMA. Si applica solo ai modelli Time Series che utilizzano l'algoritmo ARIMA. |
28 |
ArimaPeriodicStructure |
Struttura periodica in un modello ARIMA. Si applica solo ai modelli Time Series che utilizzano l'algoritmo ARIMA. |
29 |
ArimaAutoRegressive |
Coefficiente autoregressivo per un singolo termine in un modello ARIMA. Si applica solo ai modelli Time Series che utilizzano l'algoritmo ARIMA. |
30 |
ArimaMovingAverage |
Coefficiente di media mobile per un singolo termine in un modello ARIMA. Si applica solo ai modelli Time Series che utilizzano l'algoritmo ARIMA. |
1000 |
CustomBase |
Punto iniziale dei tipi di nodo personalizzati. I tipi di nodo personalizzati devono essere valori integer maggiori di questa costante. Si applica ai modelli creati tramite algoritmi plug-in personalizzati. |
ID, nome, didascalia e descrizione dei nodi
Il valore dell'ID univoco,NODE_UNIQUE_NAME, del nodo radice di qualsiasi modello è sempre uguale a 0. Tutti gli ID dei nodi vengono assegnati automaticamente da Analysis Services e non possono essere modificati.
Il nodo radice di ogni modello contiene anche i metadati di base relativi al modello. Tra i metadati sono inclusi il database di Analysis Services in cui viene archiviato il modello (MODEL_CATALOG), lo schema (MODEL_SCHEMA) e il nome del modello (MODEL_NAME). Queste informazioni sono ripetute in tutti i nodi del modello, pertanto non è necessario eseguire query sul nodo radice per ottenere i metadati.
Oltre al nome utilizzato come identificatore univoco, ciascun nodo dispone di un nome, NODE_NAME, che viene creato automaticamente dall'algoritmo a scopo di visualizzazione e non può essere modificato.
Nota
L'algoritmo Microsoft Clustering consente di assegnare nomi descrittivi a ogni cluster. Questi nomi descrittivi, tuttavia, non vengono salvati in modo permanente sul server e se si rielabora il modello l'algoritmo genera nuovi nomi per i cluster.
La didascalia e la descrizione relative a ogni nodo sono generate automaticamente dall'algoritmo e fungono da etichette per conoscere il contenuto del nodo. Il testo generato per ogni campo dipende dal tipo di modello. A volte il nome, la didascalia e la descrizione contengono esattamente la stessa stringa, ma in alcuni modelli la descrizione può contenere informazioni aggiuntive. Per informazioni dettagliate sull'implementazione, vedere l'argomento relativo al singolo tipo di modello.
Nota
Il server Analysis Services supporta la ridenominazione dei nodi solo se i modelli vengono compilati tramite un algoritmo plug-in personalizzato che implementa la ridenominazione. Per abilitare la ridenominazione, è necessario eseguire l'override dei metodi durante la creazione dell'algoritmo plug-in.
Padri, figli e cardinalità dei nodi
La relazione tra nodi padre e nodi figlio in una struttura ad albero è determinata dal valore della colonna PARENT_UNIQUE_NAME. Questo valore è archiviato nel nodo figlio e indica l'ID del nodo padre. Di seguito sono riportati alcuni esempi delle modalità di utilizzo di queste informazioni:
Se il valore della colonna PARENT_UNIQUE_NAME è NULL, il nodo è il nodo di livello superiore del modello.
Se il valore di PARENT_UNIQUE_NAME è 0, il nodo deve essere un discendente diretto del nodo di livello superiore del modello. Il valore dell'ID del nodo radice infatti è sempre 0.
È possibile individuare discendenti o padri di un determinato nodo utilizzando funzioni in query DMX (Data Mining Extensions). Per ulteriori informazioni sull'utilizzo di funzioni nelle query, vedere Esecuzione di query sui modelli di data mining (Analysis Services - Data mining).
Il termine cardinalità fa riferimento al numero di elementi contenuti in un set. Nel contesto di un modello di data mining elaborato, la cardinalità indica il numero di figli di uno specifico nodo. Ad esempio, in presenza di un modello di albero delle decisioni con un nodo [Yearly Income] che dispone a sua volta di due nodi figlio, uno per la condizione [Yearly Income] = High e uno per la condizione [Yearly Income] = Low, il valore di CHILDREN_CARDINALITY per il nodo [Yearly Income] è uguale a 2.
Nota
In Analysis Services, durante il calcolo della cardinalità di un nodo vengono contati solo i nodi figlio immediati. Tuttavia, se si crea un algoritmo plug-in personalizzato, è possibile eseguire l'overload di CHILDREN_CARDINALITY per contare la cardinalità in modo diverso. L'operazione può essere utile, ad esempio, per contare il numero complessivo di discendenti, non solo i figli immediati.
Sebbene la cardinalità sia contata nello stesso modo per tutti i modelli, la modalità di interpretazione o utilizzo del valore della cardinalità varia in base al tipo di modello. In un modello di clustering, ad esempio, la cardinalità del nodo di livello superiore indica il numero di transizioni trovate. In altri tipi di modello, il valore della cardinalità può sempre essere impostato a seconda del tipo di nodo. Per ulteriori informazioni sull'interpretazione della cardinalità, vedere l'argomento relativo al singolo tipo di modello.
Nota
Alcuni modelli, quali quelli creati dall'algoritmo Microsoft Neural Network, contengono inoltre uno speciale tipo di nodo che fornisce statistiche descrittive sui dati di training per l'intero modello. Per definizione, questi nodi non dispongono mai di nodi figlio.
Distribuzione dei nodi
Nella colonna NODE_DISTRIBUTION è contenuta una tabella nidificata che fornisce importanti e dettagliate informazioni sui modelli individuati dall'algoritmo per molti nodi. Le statistiche esatte fornite nella tabella variano a seconda del tipo di modello, della posizione del nodo nell'albero e del fatto che l'attributo stimabile sia un valore numerico continuo o un valore discreto; possono tuttavia includere i valori minimo e massimo di un attributo, i pesi assegnati ai valori, il numero di case presenti in un nodo, i coefficienti utilizzati in una formula di regressione e misure statistiche quali deviazione standard e varianza. Per ulteriori informazioni su come interpretare la distribuzione dei nodi, vedere l'argomento relativo al tipo specifico di modello utilizzato.
Nota
A seconda del tipo di nodo, la tabella NODE_DISTRIBUTION può essere vuota. Alcuni nodi ad esempio hanno esclusivamente lo scopo di organizzare una raccolta di nodi figlio e sono i nodi figlio a contenere le statistiche dettagliate.
Nella tabella nidificata NODE_DISTRIBUTION sono contenute sempre le colonne riportate di seguito. Il contenuto di ciascuna colonna varia a seconda del tipo di modello. Per ulteriori informazioni su tipi di modello specifici, vedere Contenuto del modello di data mining in base al tipo di algoritmo.
ATTRIBUTE_NAME
Il contenuto varia in base all'algoritmo. Può essere il nome di una colonna, ad esempio un attributo stimabile, una regola, un set di elementi o un'informazione interna all'algoritmo come la porzione di una formula.Questa colonna può contenere inoltre una coppia attributo-valore.
ATTRIBUTE_VALUE
Valore dell'attributo specificato in ATTRIBUTE_NAME.Se il nome dell'attributo è una colonna, nel caso più semplice ATTRIBUTE_VALUE contiene uno dei valori discreti per la colonna.
A seconda dei valori elaborati dall'algoritmo, nella colonna ATTRIBUTE_VALUE può essere presente anche un flag che indica se esiste un valore per l'attributo (Existing) o se il valore è Null (Missing).
Ad esempio, se il modello è configurato per la ricerca dei clienti che hanno acquistato almeno una volta un determinato elemento, nella colonna ATTRIBUTE_NAME potrebbe essere contenuta la coppia attributo-valore che definisce l'elemento di interesse, ad esempio Model = 'Water bottle', e nella colonna ATTRIBUTE_VALUE solo la parola chiave Existing o Missing.
SUPPORT
Conteggio dei case che dispongono di questa coppia attributo-valore o che contengono questo set di elementi o regola.In generale, il valore di supporto per ogni nodo indica quanti case del set di training sono inclusi nel nodo corrente. Nella maggior parte dei tipi di modelli il supporto rappresenta il conteggio esatto dei case. I valori di supporto sono utili perché consentono di visualizzare la distribuzione dei dati all'interno dei case di training senza che sia necessario eseguire una query sui dati di training. Questi valori vengono inoltre utilizzati dal server Analysis Services per confrontare la probabilità archiviata con la probabilità precedente in modo da determinare se l'inferenza è forte o debole.
In un albero di classificazione, ad esempio, il valore di supporto indica il numero di case che dispongono della combinazione di attributi descritta.
In un albero delle decisioni, la somma del supporto in ciascun livello dell'albero ammonta al supporto del nodo padre. Se, ad esempio, un modello che contiene 1200 case viene diviso equamente per genere, e quindi suddiviso equamente per tre valori di reddito: basso, medio e alto, i nodi figlio del nodo (2), ovvero i nodi (4), (5) e (6), ammontano sempre allo stesso numero di case come nodo (2).
ID e attributi del nodo
Conteggio del supporto
(1) Model root
1200
(2) Gender = Male
(3) Gender = Female
600
600
(4) Gender = Male e Income = High
(5) Gender = Male e Income = Medium
(6) Gender = Male e Income = Low
200
200
200
(7) Gender = Female e Income = High
(8) Gender = Female e Income = Medium
(9) Gender = Female e Income = Low
200
200
200
Per un modello di clustering, è possibile ponderare il numero di supporto in modo da includere le probabilità di appartenenza a più cluster. L'appartenenza a più cluster costituisce il metodo di clustering predefinito. In questo scenario, poiché ogni case non appartiene necessariamente a un unico cluster, il supporto in questi modelli potrebbe non raggiungere il 100% in tutti i cluster.
PROBABILITY
Indica la probabilità per il nodo specificato all'interno dell'intero modello.La probabilità rappresenta generalmente il supporto per questo determinato valore, diviso per il totale dei case all'interno del nodo (NODE_SUPPORT).
La probabilità è tuttavia leggermente adattata per eliminare distorsioni provocate da valori mancanti nei dati.
Ad esempio, se i valori correnti per [Total Children] sono 1 e 2, si desidera evitare di creare un modello che stimi che è impossibile non avere figli oppure avere tre figli. Per assicurarsi che i valori mancanti siano improbabili ma non impossibili, l'algoritmo aggiunge sempre 1 al conteggio dei valori effettivi per qualsiasi attributo.
Esempio:
Probabilità per [Total Children = 1] = [Conteggio dei case in cui Total Children è uguale a 1] + 1/[Conteggio di tutti i case] + 3
Probabilità per [Total Children = 2] = [Conteggio dei case in cui Total Children è uguale a 2] + 1/[Conteggio di tutti i case] + 3
Nota
Il valore 3 dell'adattamento è calcolato aggiungendo 1 al numero complessivo di valori n esistenti.
Dopo l'adattamento le probabilità per tutti i valori sono ancora uguali a 1. La probabilità per il valore senza dati (in questo esempio, [Total Children = '0', '3' o un altro valore]), inizia da un livello molto basso diverso da zero e aumenta lentamente man mano che vengono aggiunti altri case.
VARIANCE
Indica la varianza dei valori all'interno del nodo. Per definizione, la varianza dei valori discreti è sempre 0. Se il modello supporta valori continui, la varianza viene calcolata come σ (sigma), utilizzando il denominatore no il numero di case presenti nel nodo.In generale, la deviazione standard, StDev, viene rappresentata tramite due definizioni: un metodo per il calcolo della deviazione standard prende in considerazione la distorsione, mentre l'altro calcola la deviazione standard senza utilizzare la distorsione. In generale, gli algoritmi di data mining di Microsoft non utilizzano la distorsione durante il calcolo della deviazione standard.
Il valore visualizzato nella tabella NODE_DISTRIBUTION costituisce il valore effettivo per gli attributi discreti e discretizzati e la media per i valori continui.
VALUE_TYPE
Indica il tipo di dati del valore o attributo e l'utilizzo del valore. Determinati tipi di valore si applicano solo a determinati tipi di modello:ID VALUE_TYPE
Valore dell'etichetta
Nome del tipo di valore
1
Mancante
Indica che i dati del case non contengono un valore per questo attributo. Lo stato Missing è calcolato separatamente dagli attributi con valori.
2
Esistente
Indica che i dati del case contengono un valore per questo attributo.
3
Continuo
Indica che il valore dell'attributo è un valore numerico continuo che può pertanto essere rappresentato da una media, insieme alle varianza e deviazione standard.
4
Discreto
Indica che un valore di testo o numerico viene trattato come discreto.
Nota i valori discreti possono anche essere mancanti; tuttavia, vengono gestiti in modo diverso durante l'esecuzione dei calcoli. Per ulteriori informazioni, vedere Valori mancanti (Analysis Services - Data mining).
5
Discretizzato
Indica che l'attributo contiene valori numerici discretizzati. Il valore sarà una stringa formattata che descrive i bucket di discretizzazione.
6
Esistente
Indica che l'attributo dispone di valori numerici continui e che i valori sono stati forniti nei dati, a fronte di valori mancanti o derivati.
7
Coefficiente
Indica un valore numerico che rappresenta un coefficiente.
Un coefficiente è un valore che viene applicato durante il calcolo della variabile dipendente. Ad esempio, se il modello crea una formula di regressione che stima il reddito in base all'età, il coefficiente viene utilizzato nella formula di correlazione dell'età al reddito.
8
Miglioramento punteggio
Indica un valore numerico che rappresenta il miglioramento del punteggio di un attributo.
9
Statistiche
Indica un valore numerico che rappresenta una statistica per un regressore.
10
Nome univoco nodo
Indica che il valore non deve essere gestito come valore numerico o stringa, ma come l'identificatore univoco di un altro nodo di contenuto del modello.
In un modello di rete neurale, ad esempio, gli ID forniscono puntatori dai nodi presenti nel livello di output ai nodi nel livello nascosto, e dai nodi presenti nel livello nascosto ai nodi nel livello di input.
11
Intercetta
Indica un valore numerico che rappresenta l'intercetta in una formula di regressione.
12
Periodicità
Indica che il valore denota una struttura periodica nel modello.
Si applica solo a modelli Time Series che contengono un modello ARIMA.
NotaL'algoritmo Microsoft Time Series rileva automaticamente le strutture periodiche basate sui dati di training; pertanto le periodicità del modello finale possono includere valori di periodicità che non sono stati forniti come parametri durante la creazione del modello.13
Ordine autoregressivo
Indica che il valore rappresenta il numero di serie autoregressive.
Si applica a modelli Time Series che utilizzano l'algoritmo ARIMA.
14
Ordine media mobile
Rappresenta un valore che indica il numero di medie mobili in una serie.
Si applica a modelli Time Series che utilizzano l'algoritmo ARIMA.
15
Ordine delle differenze
Rappresenta un valore che indica il numero di volte in cui viene differenziata la serie.
Si applica a modelli Time Series che utilizzano l'algoritmo ARIMA.
16
Booleano
Rappresenta un tipo booleano.
17
Altro
Rappresenta un valore personalizzato definito dall'algoritmo.
18
Stringa visualizzabile
Rappresenta un valore personalizzato che viene visualizzato come stringa dall'algoritmo. Non è stata applicata alcuna formattazione dal modello a oggetti.
I tipi di valore derivano dall'enumerazione ADMOMD.NET. Per ulteriori informazioni, vedere MiningValueType.
Punteggio del nodo
Il significato del punteggio del nodo varia a seconda del tipo di modello e può anche essere specifico del tipo di nodo. Per informazioni sulla modalità di calcolo di NODE_SCORE per ogni modello e tipo di nodo, vedere Contenuto del modello di data mining in base al tipo di algoritmo.
Probabilità del nodo e probabilità marginale
Nel set di righe dello schema del modello di data mining sono incluse le colonne NODE_PROBABILITY e MARGINAL_PROBABILITY per tutti i tipi di modello. Queste colonne contengono valori solo nei nodi che hanno un valore significativo di probabilità. Il nodo radice di un modello, ad esempio, non contiene mai un punteggio di probabilità.
Nei nodi che forniscono punteggi di probabilità, la probabilità del nodo e le probabilità marginali costituiscono calcoli diversi.
La probabilità marginale indica la probabilità di raggiungere il nodo dal padre.
La probabilità del nodo indica la probabilità di raggiungere il nodo dalla radice.
La probabilità del nodo è sempre minore o uguale alla probabilità marginale.
Ad esempio, se il popolamento di tutti i clienti in un albero delle decisioni è suddiviso equamente per genere e nessun valore è mancante, la probabilità dei nodi figlio sarà uguale a 0,5. Si supponga ora che ognuno dei nodi di genere venga equamente diviso per i livelli di reddito: alto, medio e basso. In questo caso il punteggio di MARGINAL_PROBABILITY di ciascun nodo figlio deve essere sempre 0,33, ma il valore di NODE_PROBABILTY sarà il prodotto di tutte le probabilità che conducono a quel nodo e pertanto sarà sempre inferiore al valore di MARGINAL_PROBABILITY.
Livello e valore del nodo/attributo |
Probabilità marginale |
Probabilità del nodo |
---|---|---|
Nodo radice del modello Tutti i clienti di destinazione |
1 |
1 |
Clienti di destinazione suddivisi per genere |
.5 |
.5 |
Clienti di destinazione suddivisi per genere, quindi suddivisi nuovamente in tre modi in base al reddito |
.33 |
.5 * .33 = .165 |
Regola del nodo e regola marginale
Nel set di righe dello schema del modello di data mining sono inoltre incluse le colonne NODE_RULE e MARGINAL_RULE per tutti i tipi di modello. Queste colonne contengono frammenti XML che è possibile utilizzare per serializzare un modello o rappresentare parti della sua struttura. In presenza di valori non significativi le colonne di alcuni nodi possono essere vuote.
I due tipi di regole XML fornite sono simili ai due tipi di valori di probabilità. Il frammento XML in MARGINAL_RULE definisce l'attributo e il valore del nodo corrente, laddove il frammento XML in NODE_RULE descrive il percorso al nodo corrente dal nodo radice del modello.
Torna all'inizio
Contenuto del modello di data mining in base al tipo di algoritmo
Ogni algoritmo archivia tipi diversi di informazioni come parte dello schema di contenuto. L'algoritmo Microsoft Clustering, ad esempio, genera una moltitudine di nodi figlio, ognuno dei quali rappresenta un possibile cluster. Ogni nodo del cluster contiene regole che descrivono caratteristiche condivise dagli elementi presenti nel cluster. L'algoritmo Microsoft Linear Regression non contiene invece nodi figlio e il nodo padre del modello contiene l'equazione che descrive la relazione lineare individuata dall'analisi.
Nella tabella seguente vengono forniti collegamenti agli argomenti disponibili per ogni tipo di algoritmo.
Argomenti sul contenuto del modello: viene illustrato il significato di ciascun tipo di nodo per ogni tipo di algoritmo e vengono fornite istruzioni sui nodi di maggior interesse in un particolare tipo di modello.
Argomenti sull'esecuzione di query: vengono forniti esempi di query su un determinato tipo di modello e istruzioni su come interpretare i risultati.
Strumenti per la visualizzazione del contenuto di un modello di data mining
Quando si esplora un modello in Business Intelligence Development Studio, è possibile visualizzare le informazioni in Microsoft Generic Content Tree Viewer, disponibile sia in Business Intelligence Development Studio che in SQL Server Management Studio.
In Microsoft Generic Content Viewer vengono visualizzati elementi quali colonne, regole, proprietà, attributi, nodi e altro contenuto del modello utilizzando le informazioni disponibili nel set di righe dello schema relativo al contenuto del modello di data mining. Il set di righe dello schema relativo al contenuto è un framework generico per la presentazione di informazioni dettagliate sul contenuto di un modello di data mining. È possibile visualizzare il contenuto del modello in un client che supporti i set di righe gerarchici. Il visualizzatore di Business Intelligence Development Studio presenta le informazioni in un visualizzatore di tabelle HTML che rappresenta tutti i modelli in un formato coerente e semplifica la comprensione della struttura dei modelli creati. Per ulteriori informazioni, vedere Visualizzazione dei dettagli di un modello con Microsoft Generic Content Tree Viewer.
Torna all'inizio
Strumenti per l'esecuzione di query sul contenuto di un modello di data mining
Per recuperare il contenuto di un modello di data mining, è necessario creare una query sul modello di data mining.
Il modo più semplice per creare una query sul contenuto consiste nell'eseguire l'istruzione DMX seguente in SQL Server Management Studio:
SELECT * FROM [<mining model name>].CONTENT
Per ulteriori informazioni, vedere Esecuzione di query sui modelli di data mining (Analysis Services - Data mining).
È anche possibile eseguire una query sul contenuto del modello di data mining utilizzando i set di righe dello schema di data mining. Un set di righe dello schema è una struttura standard utilizzata dai client per individuare, esplorare ed eseguire query sulle informazioni relative a strutture e modelli di data mining. È possibile eseguire query sui set di righe dello schema tramite istruzioni XMLA, Transact-SQL o DMX.
In SQL Server 2008 è inoltre possibile accedere alle informazioni sui set di righe dello schema di data mining stabilendo una connessione al server Analysis Services ed eseguendo query nelle tabelle di sistema. Per ulteriori informazioni sull'utilizzo di istruzioni SELECT per l'esecuzione di query su set di righe dello schema di data mining, vedere Strumenti di risoluzione dei problemi (Analysis Services - Dati mining).
Torna all'inizio
Vedere anche