Progetti di data mining
Si applica a: SQL Server 2019 e versioni precedenti di Analysis Services Azure Analysis Services Fabric/Power BI Premium
Importante
Il data mining è stato deprecato in SQL Server 2017 Analysis Services e ora è stato interrotto in SQL Server 2022 Analysis Services. La documentazione non viene aggiornata per le funzionalità deprecate e non più disponibili. Per altre informazioni, vedere Compatibilità con le versioni precedenti di Analysis Services.
Un progetto di data mining fa parte di una soluzione SQL Server Analysis Services. Durante il processo di progettazione, gli oggetti creati nel progetto sono disponibili per l'esecuzione di test e query come parte di un database dell'area di lavoro. Quando si desidera che gli utenti possano eseguire query o esplorare gli oggetti nel progetto, è necessario distribuire il progetto in un'istanza di SQL Server Analysis Services in esecuzione in modalità multidimensionale.
In questo argomento vengono fornite informazioni di base necessarie per comprendere e creare i progetti di data mining.
Creazione di progetti di data mining
Oggetti nei progetti di data mining
Utilizzo del progetto di data mining completato
Accesso a livello di codice ai progetti di data mining
Creazione di progetti di data mining
In SQL Server Data Tools si compilano progetti di data mining usando il modello OLAP e il progetto di data mining. È inoltre possibile creare progetti di data mining a livello di codice tramite AMO. È possibile generare script dei singoli oggetti di data mining tramite ASSL (Analysis Services Scripting Language). Per altre informazioni, vedere Accesso ai dati del modello multidimensionale (Analysis Services - Dati multidimensionali).
Se si crea un progetto di data mining all'interno di una soluzione esistente, per impostazione predefinita gli oggetti di data mining verranno distribuiti in un database di SQL Server Analysis Services con lo stesso nome del file della soluzione. È possibile modificare il nome e il server di destinazione usando la finestra di dialogo Proprietà progetto . Per altre informazioni, vedere Configure Analysis Services Project Properties (SSDT).
Avviso
Per compilare e distribuire correttamente il progetto, è necessario avere accesso a un'istanza di SQL Server Analysis Services in esecuzione in modalità OLAP/Data Mining. Non è possibile sviluppare o distribuire soluzioni di data mining in un'istanza di SQL Server Analysis Services che supporta modelli tabulari, né usare dati direttamente da una cartella di lavoro di Power Pivot o da un modello tabulare che utilizza l'archivio dati in memoria. Per determinare se l'istanza di SQL Server Analysis Services che è possibile supportare il data mining, vedere Determinare la modalità server di un'istanza di Analysis Services.
In ogni progetto di data mining creato si effettueranno i passaggi riportati di seguito:
Scegliere un' origine dati, ad esempio un cubo, un database o un file di Excel o di testo, che contiene i dati non elaborati da usare per la compilazione dei modelli.
Definire un subset dei dati nell'origine dati da usare per l'analisi e salvarlo come vista origine dati.
Definire una struttura di data mining per supportare la modellazione.
Aggiungere modelli di data mining alla struttura di data mining, scegliendo un algoritmo e specificando la modalità in cui i dati verranno gestiti dall'algoritmo.
Eseguire il training dei modelli popolandoli con i dati selezionati o un subset filtrato dei dati.
Esplorare, eseguire test e ricompilare i modelli.
Al completamento del progetto, è possibile distribuirlo per consentire agli utenti di esplorarlo o eseguire query oppure fornire l'accesso a livello di codice ai modelli di data mining in un'applicazione per supportare stime e analisi.
Oggetti nei progetti di data mining
Tutti i progetti di data mining contengono i quattro tipi di oggetti seguenti. È possibile disporre di più oggetti di tutti i tipi.
Origini dati
Viste origine dati
Strutture di data mining
Modelli di data mining
Ad esempio, un solo progetto di data mining può contenere un riferimento a più origini dati, ciascuna delle quali supporta più viste origine dati. A sua volta, ogni vista origine dati può supportare più strutture di data mining, ciascuna con molti modelli di data mining correlati.
Inoltre, il progetto potrebbe includere algoritmi plug-in, assembly personalizzati o stored procedure personalizzate; questi oggetti tuttavia non vengono descritti in questo argomento. Per altre informazioni, vedere Guida per gli sviluppatori (Analysis Services).
Origini dati
L'origine dati definisce le stringa di connessione e le informazioni di autenticazione che verranno usate dal server SQL Server Analysis Services per connettersi all'origine dati. L'origine dati può contenere più tabelle o viste; può trattarsi semplicemente di una sola cartella di lavoro di Excel o un file di testo oppure essere più complessa, come un database OLAP (Online Analytical Processing, elaborazione analitica in linea) o un database relazionale di grandi dimensioni.
Un progetto di data mining può fare riferimento a più origini dati. Anche se un modello di data mining può utilizzare una sola origine dati alla volta, il progetto può avere più modelli tratti da origini dati diverse.
SQL Server Analysis Services supporta i dati di molti provider esterni e SQL Server data mining può usare dati relazionali e cubi come origine dati. Tuttavia, se si sviluppano entrambi i tipi di modelli di progetto basati su origini relazionali e modelli basati su cubi OLAP, è possibile sviluppare e gestire questi in progetti separati.
In genere i modelli basati su un cubo OLAP devono essere sviluppati all'interno della soluzione di progettazione OLAP. Ciò è dovuto al fatto che i modelli basati su un cubo devono elaborare il cubo per aggiornare i dati. In genere è necessario utilizzare dati del cubo solo quando si tratta del mezzo principale di archiviazione dati e accesso o quando si richiedono le aggregazioni, le dimensioni e gli attributi creati dal progetto multidimensionale.
Se nel progetto si utilizzano solo dati relazionali, è necessario creare i modelli relazionali all'interno di un progetto separato, in modo da evitare di rielaborare inutilmente altri oggetti. In molti casi, il database di gestione temporanea o il data warehouse utilizzato per supportare la creazione del cubo contiene già le viste necessarie per eseguire il data mining ed è possibile utilizzare tali viste per il data mining anziché utilizzare le aggregazioni e le dimensioni nel cubo.
Non è possibile usare dati in memoria o PowerPivot direttamente per compilare modelli di data mining.
L'origine dati identifica solo il server o il provider e il tipo di dati generale. Se è necessario modificare la formattazione dei dati e le aggregazioni, utilizzare l'oggetto vista origine dati.
Per controllare la modalità di gestione dei dati dall'origine dati, è possibile aggiungere colonne derivate o calcoli, modificare le aggregazioni o rinominare le colonne nei dati della vista origine dati. È inoltre possibile utilizzare anche i dati a valle, modificando le colonne della struttura di data mining o utilizzando flag di modellazione e filtri al livello della colonna del modello di data mining.
Se è necessario pulire i dati o modificare i dati nel data warehouse per creare variabili aggiuntive, modificare tipi di dati o creare un'aggregazione alternativa, potrebbe essere necessario creare tipi di progetto aggiuntivi a supporto del data mining. Per altre informazioni su questi progetti correlati, vedere Progetti correlati per soluzioni di data mining.
Viste origine dati
Dopo avere definito la connessione a un'origine dati, viene creata una vista che individua i dati specifici rilevanti per il modello.
La vista origine dati consente inoltre di personalizzare la modalità in cui i dati nell'origine dati vengono forniti al modello di data mining. È possibile modificare la struttura dei dati in modo da renderla più rilevante per il progetto oppure scegliere solo determinati tipi di dati.
Ad esempio, tramite Editor vista origine dati è possibile:
Creare colonne derivate, ad esempio datepart, sottostringhe e così via.
Aggregare i valori usando istruzioni Transact-SQL, ad esempio GROUP BY
Limitare temporaneamente i dati o i dati di esempio
Per altre informazioni sulla modifica di dati all'interno di una vista origine dati, vedere Viste origine dati in modelli multidimensionali.
Avviso
Se si desidera filtrare i dati, è possibile eseguire questa operazione nella vista origine dati, ma anche creare filtri sui dati a livello del modello di data mining. Poiché la definizione del filtro è archiviata con il modello di data mining, l'utilizzo di filtri modello semplifica la determinazione dei dati utilizzati per il training del modello. Inoltre, è possibile creare più modelli correlati, con criteri di filtro diversi. Per altre informazioni, vedere Filtri per i modelli di data mining (Analysis Services - Data mining).
Si noti che la vista origine dati creata può contenere dati aggiuntivi non utilizzati direttamente per l'analisi. Ad esempio, è possibile aggiungere alla vista origine dati altri dati utilizzati per test, stime o drill-through. Per altre informazioni su questi usi, vedere Test e convalida (data mining) e Drill-through.
Strutture di data mining
Dopo aver creato l'origine dati e la vista origine dati, è necessario selezionare le colonne di dati più rilevanti per le esigenze aziendali, definendo strutture di data mining all'interno del progetto. Con una struttura di data mining si indica al progetto quali colonne di dati della vista origine dati devono effettivamente essere utilizzate nella modellazione, nel training e nei test.
Per aggiungere una nuova struttura di data mining, avviare la Creazione guidata modello di data mining. Con la procedura guidata viene automaticamente definita una struttura di data mining, viene avviato il processo di scelta dei dati e, facoltativamente, di aggiunta di un modello di data mining alla struttura. In una struttura di data mining si scelgono le tabelle e le colonne dalla vista origine dati o da un cubo OLAP e si definiscono le relazioni tra le tabelle, se i dati includono tabelle nidificate.
La scelta dei dati sarà molto diversa nella Creazione guidata modello di data mining, a seconda che si utilizzino origini dati relazionali o OLAP.
Quando si scelgono dati da un'origine dati relazionale, l'impostazione di una struttura di data mining è semplice: si scelgono le colonne dai dati nella vista origine dati e si impostano personalizzazioni aggiuntive, quali gli alias, o si definisce in che modo raggruppare o suddividere in contenitori i valori nella colonna. Per altre informazioni, vedere Creare una struttura di data mining relazionale.
Quando si utilizzano dati da un cubo OLAP, la struttura di data mining deve trovarsi nello stesso database della soluzione OLAP. Per creare una struttura di data mining, selezionare gli attributi dalle dimensioni e le misure correlate nella soluzione OLAP. I valori numerici sono in genere presenti nelle misure e le variabili di categoria nelle dimensioni. Per altre informazioni, vedere Creare una struttura di data mining OLAP.
Per definire le strutture di data mining è inoltre possibile utilizzare DMX. Per altre informazioni, vedere Istruzioni DMX (Data Mining Extensions).
Dopo avere creato la struttura di data mining iniziale, è possibile copiare, modificare e creare alias delle colonne della struttura.
Ogni struttura di data mining può contenere più modelli di data mining. Pertanto, al termine dell'operazione è possibile aprire nuovamente la struttura di data mining e utilizzare Data Mining Designer per aggiungere altri modelli di data mining alla stessa.
È inoltre possibile separare i dati in un training set, utilizzato per la compilazione di modelli, e in un set di dati di controllo da utilizzare nei test o nella convalida dei modelli di data mining.
Avviso
Alcuni tipi di modelli, ad esempio i modelli Time Series, non supportano la creazione di set di dati di controllo perché richiedono una serie continua di dati per il training. Per altre informazioni, vedere Training and Testing Data Sets.
Modelli di data mining
Il modello di data mining definisce l'algoritmo o il metodo di analisi che verrà utilizzato per i dati. A ogni struttura di data mining si aggiunge uno o più modelli di data mining.
A seconda delle esigenze, è possibile combinare più modelli in un solo progetto o creare progetti separati per ogni tipo di modello o attività analitica.
Dopo aver creato una struttura e un modello, ciascun modello viene elaborato eseguendo i dati dalla vista origine dati tramite l'algoritmo, che genera un modello matematico dei dati. Questo processo è noto anche come training del modello. Per altre informazioni, vedere Requisiti e considerazioni sull'elaborazione (data mining).
Dopo l'elaborazione del modello, è possibile esplorare visivamente il modello di data mining e creare query di stima basate su di esso. Se i dati ottenuti dal processo di training sono stati memorizzati nella cache, è possibile usare query drill-through per restituire informazioni dettagliate sui case usati nel modello.
Quando si desidera utilizzare un modello per la produzione (ad esempio per l'utilizzo nell'esecuzione di stime o per l'esplorazione da parte di utenti generici), è possibile distribuirlo in un server diverso. Se è necessario rielaborare il modello in futuro, occorre esportare anche la definizione della struttura di data mining sottostante (e necessariamente la definizione dell'origine dati e della vista origine dati).
Quando si distribuisce un modello, è necessario inoltre assicurarsi che siano impostate le opzioni di elaborazione corrette nella struttura e nel modello e che i potenziali utenti dispongano delle autorizzazioni necessarie per eseguire query, visualizzare modelli o eseguire il drill-through sulla struttura o i dati del modello. Per altre informazioni, vedere Panoramica della sicurezza (data mining).
Utilizzo del progetto di data mining completato
In questa sezione vengono riepilogate le modalità di utilizzo del progetto di data mining completato. È possibile creare grafici di accuratezza, esplorare e convalidare i dati e rendere disponibili agli utenti i modelli di data mining.
Avviso
I grafici, le query e le visualizzazioni che si utilizzano con i modelli di data mining non vengono salvati come parte del progetto di data mining e non possono essere distribuiti. Se è necessario rendere persistenti tali oggetti, è necessario salvare il contenuto presentato o crearne uno script come descritto per ogni oggetto.
Visualizzare ed esplorare modelli
Dopo avere creato un modello, è possibile utilizzare query e strumenti visivi per esplorare i modelli che contiene e acquisire ulteriori informazioni sui modelli e le statistiche sottostanti. Nella scheda Visualizzatore modelli di data mining in Data Mining Designer, SQL Server Analysis Services fornisce visualizzatori per ogni tipo di modello di data mining, che è possibile usare per esplorare i modelli di data mining.
Queste visualizzazioni sono temporanee e vengono chiuse senza salvare quando si chiude la sessione con SQL Server Analysis Services. Pertanto, se è necessario esportare tali visualizzazioni in un'altra applicazione per una presentazione o un'ulteriore analisi, usare i comandi Copia forniti in ogni scheda o riquadro dell'interfaccia del visualizzatore.
I componenti aggiuntivi Data mining per Excel forniscono inoltre un modello di Visio che è possibile utilizzare per rappresentare i modelli in un diagramma di Visio e annotare e modificare il diagramma utilizzando gli strumenti di Visio. Per altre informazioni, vedere Componenti aggiuntivi Data mining di Microsoft SQL Server 2008 SP2 per Microsoft Office 2007.
Eseguire test e convalidare modelli
Dopo avere creato un modello, è possibile analizzare i risultati e decidere quali modelli offrono prestazioni ottimali.
SQL Server Analysis Services offre diversi grafici che è possibile usare per fornire strumenti che è possibile usare per confrontare direttamente i modelli di data mining e scegliere il modello di data mining più accurato o utile. Tra questi strumenti sono inclusi un grafico di accuratezza, un grafico dei profitti e una matrice di classificazione. È possibile generare tali grafici usando la scheda Grafico accuratezza modello di data mining di Progettazione modelli di data mining.
È anche possibile utilizzare il report convalida incrociata per eseguire il campionamento secondario iterativo dei dati per determinare se il modello è influenzato da un determinato set di dati. Le statistiche fornite dal report possono essere utilizzate per confrontare in modo obiettivo i modelli e per valutare la qualità dei dati di training.
Si noti che questi report e grafici non sono archiviati con il progetto o nel database di ssASnoversion, pertanto se è necessario conservare o duplicare i risultati, è necessario salvarli o creare script degli oggetti tramite DMX o AMO. È inoltre possibile utilizzare stored procedure per la convalida incrociata.
Per altre informazioni, vedere Test e convalida (data mining).
Creare stime
SQL Server Analysis Services fornisce un linguaggio di query denominato Estensioni data mining (DMX) che è la base per la creazione di stime ed è facilmente scriptabile. Per creare query di stima DMX, SQL Server fornisce un generatore di query, disponibile in SQL Server Management Studio. Esistono anche molti modelli DMX per l'editor di query in SQL Server Management Studio. Se non si ha alcuna novità delle query di stima, è consigliabile usare il generatore di query fornito in data mining Designer e SQL Server Management Studio. Per altre informazioni, vedere Data Mining Tools.
Le stime create in SQL Server Data Tools o SQL Server Management Studio non sono persistenti, quindi se le query sono complesse o è necessario riprodurre i risultati, è consigliabile salvare le query di stima in file di query DMX, scriptrli o incorporare le query come parte di un pacchetto di Integration Services.
Accesso a livello di codice agli oggetti di data mining
SQL Server Analysis Services offre diversi strumenti che è possibile usare per lavorare a livello di codice con i progetti di data mining e gli oggetti in essi contenuti. Il linguaggio DMX offre istruzioni che è possibile utilizzare per creare origini dati e viste origine dati, nonché per creare, eseguire il training e utilizzare strutture e modelli di data mining. Per altre informazioni, vedere Guida di riferimento a DMX (Data Mining Extensions).
È inoltre possibile eseguire tali attività tramite ASSL (Analysis Services Scripting Language) oppure mediante AMO (Analysis Management Objects). Per altre informazioni, vedere Sviluppo con XMLA in Analysis Services.
Attività correlate
Negli argomenti seguenti viene descritto l'utilizzo della Creazione guidata modello di data mining per creare un progetto di data mining e gli oggetti associati.
Attività | Argomenti |
---|---|
Viene descritto come utilizzare colonne della struttura di data mining | Creare una struttura di data mining relazionale |
Vengono fornite ulteriori informazioni sull'aggiunta di nuovi modelli di data mining e sull'elaborazione di una struttura e dei relativi modelli | Aggiungere modelli di data mining a una struttura (Analysis Services - Data mining) |
Vengono forniti collegamenti a risorse utili per personalizzare gli algoritmi per la compilazione di modelli di data mining | Personalizzare struttura e modelli di data mining |
Vengono forniti collegamenti alle informazioni su ciascuno dei visualizzatori dei modelli di data mining | Visualizzatori modello di data mining |
Vengono fornite informazioni sulla creazione di un grafico di accuratezza, un grafico dei profitti o una matrice di classificazione o sul test di una struttura di data mining | Test e convalida (Data mining) |
Vengono fornite informazioni sulle opzioni di elaborazione e sulle autorizzazioni | Elaborazione di oggetti di data mining |
Vengono fornite ulteriori informazioni su Analysis Services | Database di modelli multidimensionali |
Vedere anche
Data Mining Designer
Creazione di modelli multidimensionali tramite SQL Server Data Tools (SSDT)
Database dell'area di lavoro