Algoritmi di data mining (Analysis Services - Data mining)
Si applica a: SQL Server 2019 e versioni precedenti di Analysis Services Azure Analysis Services Fabric/Power BI Premium
Importante
Il data mining è stato deprecato in SQL Server 2017 Analysis Services e ora è stato interrotto in SQL Server 2022 Analysis Services. La documentazione non viene aggiornata per le funzionalità deprecate e non più disponibili. Per altre informazioni, vedere Compatibilità con le versioni precedenti di Analysis Services.
Un algoritmo in data mining (o Machine Learning) è un set di approcci euristici e calcoli che consente di creare un modello dai dati. Per creare un modello, tramite l'algoritmo vengono innanzitutto analizzati i dati forniti, ricercando tipi specifici di modelli o tendenze. I risultati dell'analisi vengono usati dall'algoritmo su più interazioni per definire i parametri ottimali per la creazione del modello di data mining. Questi parametri vengono quindi applicati all'intero set di dati per estrarre modelli utilizzabili e statistiche dettagliate.
Il modello di data mining creato da un algoritmo con i dati in uso può avere forme diverse, tra cui:
Set di cluster con cui viene descritto in che modo i case di un set di dati sono correlati.
Albero delle decisioni per la stima di un risultato e per la descrizione della modalità con cui criteri diversi possono incidere su tale risultato.
Modello matematico per la previsione delle vendite.
Set di regole mediante le quali viene descritto in che modo i prodotti vengono raggruppati in una transazione e le probabilità con cui tali prodotti vengano acquistati insieme.
Gli algoritmi forniti in SQL Server data mining sono i metodi più diffusi e ben ricercati di derivazione di modelli dai dati. Per prendere un esempio, il clustering K-means è uno degli algoritmi di clustering meno recenti ed è disponibile ampiamente in molti strumenti diversi e con molte diverse implementazioni e opzioni. Tuttavia, la particolare implementazione del clustering K-means usata in SQL Server data mining è stata sviluppata da Microsoft Research e quindi ottimizzata per le prestazioni con SQL Server Analysis Services. Tutti gli algoritmi di data mining di Microsoft possono essere ampiamente personalizzati e sono completamente programmabili tramite le API fornite. È anche possibile automatizzare la creazione, il training e il training dei modelli usando i componenti di data mining in Integration Services.
È possibile utilizzare inoltre algoritmi di terze parti che siano conformi alla specifica OLE DB per il data mining o che consentano lo sviluppo di algoritmi personalizzati registrabili come servizi, quindi utilizzati all'interno del framework Data Mining di SQL Server.
Scelta dell'algoritmo corretto
La scelta dell'algoritmo più appropriato da utilizzare per un'attività analitica specifica può rivelarsi complessa. Sebbene sia possibile utilizzare algoritmi diversi per eseguire la stessa attività aziendale, ogni algoritmo produce un risultato diverso e alcuni algoritmi possono produrre più di un tipo di risultato. È ad esempio possibile utilizzare l'algoritmo Microsoft Decision Trees non solo per la stima, ma anche per ridurre il numero di colonne in un set di dati, in quanto l'albero delle decisioni consente di identificare le colonne che non influiscono sul modello di data mining finale.
Scelta di un algoritmo in base al tipo
SQL Server data mining include i tipi di algoritmo seguenti:
Algoritmi di classificazione che consentono di stimare una o più variabili discrete, in base agli altri attributi del set di dati.
Algoritmi di regressione che consentono di stimare una o più variabili continue, ad esempio profitto o perdita, in base ad altri attributi del set di dati.
Algoritmi di segmentazione che consentono di dividere i dati in gruppi, o cluster, di elementi con proprietà simili.
Algoritmi di associazione che consentono di trovare le correlazioni tra attributi diversi in un set di dati. L'applicazione più comune di questo tipo di algoritmo è costituita dall'utilizzo per la creazione di regole di associazione, che è possibile utilizzare in Market basket analysis.
Algoritmi di analisi delle sequenze che consentono di riepilogare sequenze o episodi frequenti nei dati, ad esempio una serie di clic in un sito Web o una serie di eventi di log che precedono la manutenzione del computer.
Tuttavia, non esiste alcun motivo per cui sia necessario limitarsi all'utilizzo di un solo algoritmo nelle soluzioni. Analisti esperti utilizzeranno qualche volta un algoritmo per determinare gli input più efficaci, ovvero variabili, quindi applicheranno un algoritmo diverso per stimare un risultato specifico in base a tali dati. SQL Server data mining consente di creare più modelli in una singola struttura di data mining, quindi all'interno di una singola soluzione di data mining è possibile usare un algoritmo di clustering, un modello di alberi delle decisioni e un modello Naïve Bayes per ottenere visualizzazioni diverse sui dati. È possibile usare inoltre più algoritmi in una singola soluzione per eseguire attività separate. Ad esempio, è possibile usare la regressione per ottenere previsioni finanziarie e usare un algoritmo della rete neurale per eseguire un'analisi dei fattori che incidono sulle previsioni.
Scelta di un algoritmo in base all'attività
Per facilitare la selezione di un algoritmo da utilizzare con un'attività specifica, nella tabella seguente sono disponibili suggerimenti sui tipi di attività per cui ciascun algoritmo viene utilizzato in modo tradizionale.
Esempi di attività | Algoritmo Microsoft da utilizzare |
---|---|
Stima di un attributo discreto: Contrassegnare i clienti in un elenco di potenziali acquirenti come buone o scarse possibilità. Calcolare la probabilità di un errore del server entro i prossimi sei mesi. Suddividere in categorie i risultati dei pazienti ed esplorare i fattori correlati. |
Algoritmo Microsoft Decision Trees Algoritmo Microsoft Naive Bayes Algoritmo Microsoft Clustering Microsoft Neural Network Algorithm |
Stima di un attributo continuo: Prevedere le vendite del prossimo anno. Stimare i visitatori del sito in base a tendenze storiche passate e stagionali. Generare un punteggio di rischio in base ai dati demografici. |
Algoritmo Microsoft Decision Trees Algoritmo Microsoft Time Series Algoritmo Microsoft Linear Regression |
Stima di una sequenza: Eseguire un'analisi clickstream del sito Web di una società. Analizzare i fattori che portano a un errore del server. Acquisire e analizzare sequenze di attività durante le visite dei pazienti in uscita, per formulare le procedure consigliate circa le attività comuni. |
Algoritmo Microsoft Sequence Clustering |
Ricerca di gruppi di elementi comuni nelle transazioni: Utilizzare Market basket analysis per determinare la posizione del prodotto. Suggerire prodotti aggiuntivi a un cliente per l'acquisto. Analizzare i dati dei sondaggi provenienti dai visitatori a un evento, per scoprire quali attività o stand fossero correlati, per pianificare le attività future. |
Algoritmo Microsoft Association Rules Algoritmo Microsoft Decision Trees |
Ricerca di gruppi di elementi simili: Creare gruppi di profili di rischi dei pazienti in base ad attributi quali i dati demografici e i comportamenti. Analizzare gli utenti esplorando e comprando modelli. Identificare i server che dispongono di caratteristiche di utilizzo simili. |
Algoritmo Microsoft Clustering Algoritmo Microsoft Sequence Clustering |
Contenuto correlato
La sezione seguente fornisce collegamenti alle risorse di apprendimento per ognuno degli algoritmi di data mining forniti in SQL Server data mining:
Descrizione dell'algoritmo di base: illustra le operazioni dell'algoritmo e le modalità di funzionamento e descrive i possibili scenari aziendali in cui l'algoritmo potrebbe essere utile.
Riferimento tecnico: fornisce dettagli tecnici sull'implementazione dell'algoritmo, con riferimenti accademici in base alle esigenze. Sono elencati i parametri che è possibile impostare per controllare il comportamento dell'algoritmo e personalizzare i risultati nel modello. Vengono descritti i requisiti dei dati e forniti suggerimenti sulle prestazioni, se possibile.
Riferimento tecnico per l'algoritmo Microsoft Association Rules
Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees
Riferimento tecnico per l'algoritmo Microsoft Linear Regression
Riferimento tecnico per l'algoritmo Microsoft Logistic Regression
Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering
Contenuto del modello: spiega come le informazioni sono strutturate all'interno di ogni tipo di modello di data mining e spiega come interpretare le informazioni archiviate in ognuno dei nodi.
Contenuto dei modelli di data mining per i modelli di associazione (Analysis Services - Data mining)
Contenuto dei modelli di data mining per i modelli di clustering (Analysis Services - Data mining)
Mining Model Content for Decision Tree Models (Analysis Services - Data Mining)
Contenuto dei modelli di data mining per i modelli Naive Bayes (Analysis Services - Data mining)
Mining Model Content for Neural Network Models (Analysis Services - Data Mining)
Contenuto dei modelli di data mining per i modelli Time Series (Analysis Services - Data mining)
Query di data mining: fornisce più query che è possibile usare con ogni tipo di modello. Negli esempi sono incluse query contenuto che consentono di acquisire informazioni sui modelli nel modello e query di stima per facilitare la compilazione di stime in base a tali modelli.
Attività correlate
Argomento | Descrizione |
---|---|
Determinare l'algoritmo utilizzato da un modello di data mining | Eseguire query sui parametri utilizzati per creare un modello di data mining |
Creare un algoritmo plug-in personalizzato | Algoritmi plug-in |
Esplorare un modello utilizzando un visualizzatore specifico dell'algoritmo | Visualizzatori modello di data mining |
Visualizzare il contenuto di un modello utilizzando un formato di tabella generico | Visualizzare un modello utilizzando Microsoft Generic Content Tree Viewer |
Acquisire informazioni sulla configurazione dei dati e sull'utilizzo degli algoritmi per la creazione di modelli | Strutture di data mining (Analysis Services – Data mining) Modelli di data mining (Analysis Services - Data mining) |