Qualità dei dati
La qualità dei dati è una funzione di gestione dell'analisi su scala cloud. Si trova nella zona di destinazione di gestione dei dati, ed è una parte fondamentale della governance.
Considerazioni sulla qualità dei dati
La qualità dei dati è responsabilità di ogni utente che crea e utilizza prodotti dati. Gli autori devono rispettare le regole globali e di dominio, mentre i consumer devono segnalare le incoerenze dei dati al dominio di dati proprietario tramite un ciclo di feedback.
Poiché la qualità dei dati influisce su tutti i dati forniti alla bacheca, deve iniziare all'inizio dell'organizzazione. Il consiglio dovrebbe avere una comprensione della qualità dei dati forniti.
Tuttavia, essere proattivi richiede comunque di disporre di esperti di qualità dei dati in grado di pulire bucket di dati che richiedono la correzione. Evitare di delegare questo lavoro a un team centrale e di coinvolgere invece il dominio dei dati, con conoscenze specifiche, per la pulizia delle informazioni.
Metriche relative alla qualità dei dati
Le metriche relative alla qualità dei dati sono fondamentali per valutare e aumentare la qualità dei prodotti dati. A livello globale e di dominio, è necessario decidere le metriche di qualità. Come minimo, è consigliabile usare le metriche seguenti:
Metrica | Definizioni delle metriche |
---|---|
Completezza = % totale di non nulls + nonblanks | Misura la disponibilità dei dati, i campi nel set di dati che non sono vuoti e i valori predefiniti modificati. Ad esempio, se un record include 01/01/1900 come data di nascita, è molto probabile che il campo non sia mai stato popolato. |
Univocità = % di valori nonplicati | Misura valori distinti in una determinata colonna rispetto al numero di righe nella tabella. Ad esempio, dati quattro valori di colore distinti (rosso, blu, giallo e verde) in una tabella con cinque righe, tale campo è univoco (o 4/5). |
Coerenza = % dei dati con modelli | Misura la conformità all'interno di una determinata colonna al tipo di dati o al formato previsto. Ad esempio, un campo di posta elettronica contenente indirizzi di posta elettronica formattati o un campo nome con valori numerici. |
Validità = % della corrispondenza di riferimento | Misura i dati riusciti corrispondenti al set di riferimenti al dominio. Ad esempio, dato un campo Paese/area (conforme ai valori di tassonomia) in un sistema di record transazionali, il valore di "US of A" non è valido. |
Accuratezza = % di valori non modificati | Misura la corretta riproduzione dei valori previsti in più sistemi. Ad esempio, se una fattura distribuisce uno SKU e un prezzo esteso diverso dall'ordine originale, l'articolo della riga della fattura non è accurato. |
Collegamento = % di dati ben integrati | Misura l'associazione corretta ai dettagli di riferimento complementari in un altro sistema. Ad esempio, se una fattura crea uno SKU o una descrizione del prodotto non corretta, l'elemento della riga della fattura non è collegabile. |
Profiling dei dati
La profilatura dei dati esamina i prodotti dati registrati nel catalogo dati e raccoglie statistiche e informazioni su tali dati. Per fornire visualizzazioni di riepilogo e tendenza sulla qualità dei dati nel tempo, archiviare questi dati nel repository di metadati rispetto al prodotto dati.
I profili dei dati consentono agli utenti di rispondere alle domande sui prodotti dati, tra cui:
- Può essere usata per risolvere il problema aziendale?
- I dati sono conformi a standard o modelli particolari?
- Quali sono alcune delle anomalie dell'origine dati?
- Quali sono le possibili sfide dell'integrazione di questi dati nell'applicazione?
Gli utenti possono visualizzare il profilo del prodotto dati usando una dashboard per la creazione di report all'interno del marketplace dei dati.
È possibile creare report su elementi come:
- Completezza: indica la percentuale di dati che non è vuota o null.
- Univocità: indica la percentuale di dati non duplicati.
- Coerenza: indica i dati in cui viene mantenuta l'integrità dei dati.
Raccomandazioni sulla qualità dei dati
Per implementare la qualità dei dati, è necessario usare sia la potenza umana che quella computazionale come indicato di seguito:
Usare soluzioni che includono algoritmi, regole, profilatura dei dati e metriche.
Usare esperti di dominio che possono eseguire istruzioni quando è necessario eseguire il training di un algoritmo a causa di un numero elevato di errori che passano attraverso il livello di calcolo.
Convalidare in anticipo. Le soluzioni tradizionali applicano controlli di qualità dei dati dopo l'estrazione, la trasformazione e il caricamento dei dati. A questo scopo, il prodotto dati è già in uso ed è già in corso l'uso di errori per i prodotti dati downstream. Poiché invece i dati vengono inseriti dall'origine, implementare controlli di qualità dei dati nelle vicinanze delle origini e prima che i consumer downstream usino i prodotti dati. Se è presente un inserimento di batch dal data lake, eseguire questi controlli quando si spostano i dati da non elaborati ad arricchiti.
Prima che i dati siano spostati nel livello arricchito, lo schema e le colonne vengono verificati in base ai metadati registrati nel data catalog.
Se i dati contengono errori, il caricamento viene arrestato e il team dell'applicazione dati riceve una notifica dell'errore.
Se i controlli dello schema e della colonna vengono superati, i dati vengono caricati nei livelli arricchiti con tipi di dati conformi.
Prima di passare al livello arricchito, un processo di qualità dei dati verifica la conformità rispetto agli algoritmi e alle regole.
Suggerimento
Definire le regole di qualità dei dati a livello globale e di dominio. In questo modo, l'azienda potrà definire gli standard per ogni prodotto di dati creato e consentirà ai domini dati di creare regole aggiuntive correlate al proprio dominio.
Soluzioni per la qualità dei dati
È consigliabile valutare Qualità dei dati di Microsoft Purview come soluzione per la valutazione e la gestione della qualità dei dati, fondamentale per informazioni dettagliate e processi decisionali affidabili basati sull'intelligenza artificiale. Comprende:
- Regole no-code/low-code: valutare la qualità dei dati usando regole predefinite generate dall'intelligenza artificiale.
- Profilatura dei dati basata su intelligenza artificiale: consiglia colonne per la profilatura e consente l'intervento umano per il perfezionamento.
- Punteggio qualità dei dati: fornisce punteggi per asset di dati, prodotti dati e domini di governance.
- Avvisi relativi alla qualità dei dati: notifica ai proprietari dei dati problemi di qualità.
Per altre informazioni, vedere Definizione di qualità dei dati
Se l'organizzazione decide di implementare Azure Databricks per modificare i dati, è necessario valutare i controlli di qualità dei dati, i test, il monitoraggio e l'applicazione offerti da questa soluzione. L'uso delle aspettative può acquisire problemi di qualità dei dati durante l'inserimento prima di influire sui prodotti dati figlio correlati. Per altre informazioni, vedere Stabilire standard di qualità dei dati e Gestione della qualità dei dati con Databricks.
È anche possibile scegliere tra partner, opzioni open source e personalizzate per una soluzione di qualità dei dati.
Riepilogo della qualità dei dati
La correzione della qualità dei dati può avere gravi conseguenze per un'azienda. Può portare a business unit che interpretano i prodotti dati in modi diversi. Questa interpretazione errata può rivelarsi costosa per l'azienda se le decisioni sono basate su prodotti dati con una qualità dei dati inferiore. La correzione dei prodotti dati con attributi mancanti può essere un'attività costosa e potrebbe richiedere ricaricamenti completi dei dati da diversi periodi.
Convalidare la qualità dei dati in anticipo e mettere in atto processi per risolvere in modo proattivo la scarsa qualità dei dati. Ad esempio, un prodotto dati non può essere rilasciato nell'ambiente di produzione fino a quando non raggiunge una certa quantità di completezza.
È possibile usare gli strumenti come scelta gratuita, ma assicurarsi che includa aspettative (regole), metriche dei dati, profilatura e la possibilità di proteggere le aspettative in modo da poter implementare aspettative globali e basate su dominio.