Procedure consigliate per la governance dei dati e dell'intelligenza artificiale
Questo articolo illustra le procedure consigliate per la governance dei dati e dell'IA, organizzate in base ai principi architetturali elencati nelle sezioni seguenti.
1. Unificare la gestione dei dati e dell'IA
Stabilire un processo di governance dei dati e dell'intelligenza artificiale
La governance dei dati e dell'intelligenza artificiale è la gestione della disponibilità, dell'usabilità, dell'integrità e della sicurezza degli asset di dati e intelligenza artificiale di un'organizzazione. Grazie al rafforzamento della governance dei dati e dell'intelligenza artificiale, le organizzazioni possono garantire la qualità degli asset fondamentali per l'analisi e il processo decisionale accurati, contribuire a identificare nuove opportunità, migliorare la soddisfazione dei clienti e infine aumentare i ricavi. Aiuta le organizzazioni a rispettare le normative sulla privacy dei dati e dell'IA e a migliorare le misure di sicurezza, riducendo il rischio di violazioni e sanzioni dei dati. La governance efficace dei dati e dell'IA elimina anche le ridondanze e semplifica la gestione dei dati, con conseguente risparmio sui costi e maggiore efficienza operativa.
Un'organizzazione potrebbe voler scegliere il modello di governance più adatto alle proprie esigenze:
- Nel modello di governance centralizzato, gli amministratori della governance sono proprietari del metastore e possono assumere la proprietà di qualsiasi oggetto e delle autorizzazioni grant e revoke.
- In un modello di governance distribuito , l'catalog o un set di catalogs è il dominio dei dati. Il proprietario di tale catalog può creare e possedere tutti gli asset e gestire la governance all'interno di tale dominio. I proprietari di un determinato dominio possono operare indipendentemente dai proprietari di altri domini.
La soluzione di governance dei dati e dell'intelligenza artificiale Unity Catalog è integrata nella piattaforma data intelligence di Databricks. Supporta entrambi i modelli di governance e consente di gestire facilmente dati strutturati e non strutturati, modelli di Machine Learning, notebook, dashboard e file in qualsiasi piattaforma o cloud. Le procedure consigliate Unity Catalog aiutano a implementare la governance dei dati e dell'intelligenza artificiale.
Gestire i metadati per tutti i dati e gli asset di intelligenza artificiale in un'unica posizione
I vantaggi della gestione dei metadati per tutti gli asset in un'unica posizione sono simili ai vantaggi della gestione di una singola origine di verità per tutti i dati. Questi includono ridondanza dei dati ridotta, maggiore integrità dei dati e eliminazione di malintesi dovuti a definizioni o tassonomie diverse. È anche più semplice implementare criteri, standard e regole globali con una singola origine.
Come procedura consigliata, gestire il lakehouse in un singolo account con un Unity Catalog. Il Catalog Unity può gestire dati e volumes (file arbitrari), nonché asset di intelligenza artificiale quali funzionalità e modelli di intelligenza artificiale. Il contenitore di oggetti di livello superiore nella Unity Catalog è un metastore . Archivia gli asset di dati( ad esempio tables e views) e le autorizzazioni che ne regolano l'accesso. Usare un singolo metastore per area cloud e non accedere metastores tra aree per evitare problemi di latenza.
Il metastore fornisce uno spazio dei nomi a tre livelli per strutturare dati e asset di IA, tra cui volumes.
Databricks consiglia di usare catalogs per garantire la segmentazione nell'architettura delle informazioni dell'organizzazione. Spesso ciò significa che catalogs può corrispondere all'ambito dell'ambiente di sviluppo software, al team o alla business unit.
Tenere traccia dei dati e della derivazione dell'intelligenza artificiale per favorire la visibilità dei dati
La derivazione dei dati è uno strumento potente che consente ai leader dei dati di ottenere maggiore visibilità e comprensione dei dati nelle organizzazioni. La derivazione dei dati descrive la trasformazione e il perfezionamento dei dati dall'origine alle informazioni dettagliate. Include l'acquisizione di tutti i metadati e gli eventi pertinenti associati ai dati durante il ciclo di vita, inclusa l'origine dei dati set, quali altri set di dati sono stati usati per crearli, chi lo ha creato e quando, quali trasformazioni sono state eseguite, quali altri set di dati lo usano e molti altri eventi e attributi.
Inoltre, quando si esegue il training di un modello in un table in Unity Catalog, è possibile tenere traccia della derivazione del modello ai set di dati upstream su cui è stato eseguito il training e la valutazione.
La derivazione può essere usata per molti casi d'uso correlati ai dati:
- conformità e prontezza all'audit: la tracciabilità dei dati consente alle organizzazioni di tracciare l'origine di tables e campi. Questo è importante per soddisfare i requisiti di molte normative di conformità, ad esempio il Regolamento generale sulla protezione dei dati (GDPR), California Consumer Privacy Act (CCPA), Health Insurance Portability and Accountability Act (HIPAA), Il Comitato di Basilea sulla supervisione bancaria (BCBS) 239 e Sarbanes-Oxley Act (SOX).
- 'analisi dell'impatto/gestione delle modifiche: i dati vengono sottoposti a più trasformazioni dall'origine all'tablefinale pronto per l'azienda. Comprendere il potenziale impatto delle modifiche ai dati sugli utenti downstream diventa importante dal punto di vista della gestione dei rischi. Questo impatto può essere determinato facilmente usando la derivazione dei dati acquisita da Unity Catalog.
- controllo qualità dei dati: comprendere where un set dati proviene da e quali trasformazioni sono state applicate fornisce un contesto molto migliore per data scientist e analisti, consentendo loro di ottenere informazioni più accurate e migliori.
- Debug e diagnostica: in caso di risultato imprevisto, la derivazione dei dati consente ai team di dati di eseguire l'analisi della causa radice tracciando l'errore nella relativa origine. In questo modo si riduce notevolmente il tempo di risoluzione dei problemi.
Unity
Aggiungere descrizioni coerenti ai metadati
Le descrizioni forniscono un contesto essenziale per i dati. Consentono agli utenti di comprendere lo scopo e il contenuto dei dati tables e columns. Questa chiarezza consente di individuare, identificare e filtrare più facilmente i dati necessari, che è fondamentale per l'analisi dei dati e il processo decisionale efficaci. Le descrizioni possono includere informazioni sulla riservatezza dei dati e sulla conformità. Ciò consente alle organizzazioni di soddisfare i requisiti legali e normativi per la privacy e la sicurezza dei dati. Le descrizioni devono includere anche informazioni sull'origine, l'accuratezza e la pertinenza dei dati. In questo modo si garantisce l'integrità dei dati e si promuove una migliore collaborazione tra i team.
Due funzionalità principali di Unity Catalog supportano la descrizione di tables e columns. Unity Catalog consente di
aggiungere commenti a tables e columns sotto forma di commenti.
È anche possibile aggiungere un commento generato dall'intelligenza artificiale per qualsiasi table o tablecolumn gestito da Unity Catalog, per velocizzare il processo. Tuttavia, i modelli di intelligenza artificiale non sono sempre accurati e i commenti devono essere esaminati prima del salvataggio. Databricks consiglia vivamente la revisione umana dei commenti generati dall'IA per verificare la presenza di imprecisioni.
aggiungi i tag a qualsiasi elemento sicurizzabile in Unity Catalog. I tag sono attributi con chiavi e values opzionali che è possibile applicare a diversi oggetti sicuri in Unity Catalog. L'assegnazione di tag è utile per organizzare e classificare oggetti a protezione diretta diversi all'interno di un metastore. L'uso dei tag semplifica anche la ricerca e l'individuazione degli asset di dati.
Consentire l'individuazione dei dati semplificata per i consumer di dati
L'individuazione dei dati semplice consente ai data scientist, agli analisti dei dati e ai data engineer di individuare e fare riferimento rapidamente ai dati pertinenti e accelerare il time-to-value.
Databricks Catalog Explorer fornisce un'interfaccia utente per l'esplorazione e la gestione di dati, schemi (database), tables, autorizzazioni, proprietari di dati, percorsi esterni e credentials. È anche possibile usare la scheda Insights in Catalog Explorer per visualizzare le query più frequenti e gli utenti di qualsiasi table registrata in Unity Catalog.
Gestire gli asset di intelligenza artificiale insieme ai dati
La relazione tra la governance dei dati e l'intelligenza artificiale (IA) è diventata fondamentale per il successo. Il modo in cui le organizzazioni gestiscono, proteggono e usano i dati influisce direttamente sui risultati e sulle considerazioni delle implementazioni di intelligenza artificiale: non è possibile avere l'intelligenza artificiale senza dati di qualità e non è possibile avere dati di qualità senza governance dei dati.
La governance dei dati e dell'IA migliora le prestazioni di intelligenza artificiale garantendo un accesso facile ai dati di alta qualità e aggiornati, con conseguente maggiore accuratezza e migliore processo decisionale. La suddivisione dei silo aumenta l'efficienza consentendo una migliore collaborazione e semplificando i flussi di lavoro, con conseguente aumento della produttività e riduzione dei costi.
Una maggiore sicurezza dei dati è un altro vantaggio, poiché un approccio di governance unificato stabilisce procedure di gestione dei dati coerenti, riducendo le vulnerabilità e migliorando la capacità di un'organizzazione di proteggere le informazioni riservate. La conformità alle normative sulla privacy dei dati è più semplice da gestire quando i dati e la governance dell'IA sono integrati, in quanto la gestione dei dati e i processi di IA sono allineati ai requisiti normativi.
In generale, un approccio di governance unificato promuove la fiducia tra gli stakeholder e garantisce la trasparenza nei processi decisionali dell'IA stabilendo criteri e procedure chiare sia per i dati che per l'IA.
In Databricks Data Intelligence Platform, Unity Catalog è il componente centrale per gestire sia i dati che gli asset di intelligenza artificiale:
funzionalità in Unity Catalog
Nelle aree di lavoro abilitate Unity Catalog, i data scientist possono creare funzionalità tables in Unity Catalog. Queste funzionalità tables sono Delta tables o Delta Live Tables gestite da Unity Catalog.
Modelli di in Unity Catalog
I modelli in Unity Catalog estendono i vantaggi di Unity Catalog ai modelli di ML, inclusi il controllo di accesso centralizzato, la verifica, la tracciabilità delle origini e l'individuazione dei modelli nelle aree di lavoro. Le funzionalità principali dei modelli in Unity Catalog includono governance per modelli, derivazione cronologica del modello, controllo delle versioni dei modelli e distribuzione del modello tramite alias.
2. Unificare i dati e la sicurezza dell'intelligenza artificiale
Centralizzare il controllo di accesso per tutti i dati e gli asset di intelligenza artificiale
La centralizzazione del controllo di accesso per tutti gli asset di dati è importante perché semplifica la sicurezza e la governance dei dati e degli asset di intelligenza artificiale fornendo una posizione centrale per amministrare e controllare l'accesso a tali asset. Questo approccio consente di gestire l'accesso ai dati e agli oggetti di intelligenza artificiale in modo più efficiente, assicurando che vengano applicati i requisiti operativi relativi alla separazione dei compiti, che è fondamentale per la conformità alle normative e la prevenzione dei rischi.
Databricks Data Intelligence Platform fornisce metodi di controllo di accesso ai dati che descrivono quali gruppi o utenti possono accedere ai dati. Si tratta di istruzioni di criteri che possono essere estremamente granulari e specifiche, fino alla definizione di ogni record a cui ogni singolo utente ha accesso. Oppure possono essere molto espressivi e ampi, ad esempio tutti gli utenti finanziari possono visualizzare tutti i dati finanziari.
Unity Catalog centralizza i controlli di accesso per tutti i oggetti a protezione diretta supportati, ad esempio tables, file, modelli e molti altri. Ogni oggetto securizzabile in Unity Catalog ha un proprietario. Il proprietario di un oggetto ha tutti i privilegi per l'oggetto, nonché la possibilità di grant privilegi per l'oggetto a protezione diretta ad altre entità. L'Catalog Unity consente di gestire i privilegie di configurare il controllo di accesso usando istruzioni DDL SQL.
Il Catalog Unity usa filtri di riga e maschere di column per il controllo di accesso con granularità fine. I filtri di riga consentono di applicare un filtro a un table in modo che le query successive restituiscano solo le righe per le quali il predicato di filtro valuta come vero. Column maschera consente di applicare una funzione di mascheramento a un tablecolumn. La funzione di mascheramento viene valutata al momento dell'esecuzione della query, sostituendo ogni riferimento al column con i risultati della funzione di mascheramento.
Per altre informazioni, vedere Sicurezza, conformità e privacy - Gestire l'identità e l'accesso usando privilegi minimi.
Configurare la registrazione di controllo
La registrazione di controllo è importante perché fornisce un account dettagliato delle attività di sistema (azioni utente, modifiche alle impostazioni e così via) che potrebbero influire sull'integrità del sistema. Anche se i log di sistema standard sono progettati per aiutare gli sviluppatori a risolvere i problemi, i log di controllo forniscono un record cronologico di attività per la conformità e altri scopi di applicazione dei criteri aziendali. La gestione di log di controllo affidabili consente di identificare e garantire la preparazione in caso di minacce, violazioni, frodi e altri problemi di sistema.
Databricks fornisce l'accesso ai log di controllo delle attività eseguite dagli utenti di Databricks, consentendo all'organizzazione di monitorare i modelli di utilizzo dettagliati di Databricks. Esistono due tipi di log, log di controllo a livello di area di lavoro con eventi a livello di area di lavoro e log di controllo a livello di account con eventi a livello di account.
È anche possibile abilitare i log di controllo dettagliati sono log di controllo aggiuntivi registrati ogni volta che viene eseguita una query o un comando nell'area di lavoro.
Controllare gli eventi della piattaforma dati
La registrazione di controllo è importante perché fornisce un account dettagliato delle attività di sistema. Data Intelligence Platform include log di controllo per l'accesso ai metadati (di conseguenza l'accesso ai dati) e per la condivisione dei dati:
- Unity Catalogacquisisce un log di controllo di azioni eseguite sul metastore. In questo modo gli amministratori possono accedere a dettagli granulari su chi ha eseguito l'accesso a un determinato set di dati e alle azioni eseguite.
- Per la condivisione sicura con la condivisione differenziale, Azure Databricks fornisce log di controllo per monitorare gli eventi di condivisione differenziale, tra cui:
- Quando un utente crea, modifica, aggiorna o elimina una condivisione o un destinatario.
- Quando un destinatario accede a un collegamento di attivazione e scarica le credenziali.
- Quando un destinatario accede a shares o ai dati condivisi in tables.
- Quando la credenziale di un destinatario viene ruotata o scade.
3. Stabilire gli standard di qualità dei dati
Databricks Data Intelligence Platform offre una gestione affidabile della qualità dei dati con controlli qualitativi, test, monitoraggio e applicazione predefiniti per garantire dati accurati e utili per carichi di lavoro di business intelligence downstream, analisi e Machine Learning.
I dettagli di implementazione possono essere visualizzati in Affidabilità - Gestire la qualità dei dati.
Definire standard di qualità dei dati chiari
La definizione di standard di qualità dei dati chiari e interattivi è fondamentale, perché consente di garantire che i dati usati per l'analisi, la creazione di report e il processo decisionale siano affidabili e affidabili. La documentazione di questi standard consente di garantire che vengano mantenuti. Gli standard di qualità dei dati devono essere basati sulle esigenze specifiche dell'azienda e devono soddisfare dimensioni della qualità dei dati, ad esempio accuratezza, completezza, coerenza, tempestività e affidabilità:
- Accuratezza: assicurarsi che i dati riflettano accuratamente i valuesreali.
- Completezza: tutti i dati necessari devono essere acquisiti e non devono essere mancanti dati critici.
- Coerenza: i dati in tutti i sistemi devono essere coerenti e non contraddicono altri dati.
- Tempestività: i dati devono essere aggiornati e disponibili in modo tempestivo.
- Affidabilità: i dati devono essere originati ed elaborati in modo da garantire la sua affidabilità.
Usare gli strumenti data quality per la profilatura, la pulizia, la convalida e il monitoraggio dei dati
Sfruttare gli strumenti data quality per la profilatura, la pulizia, la convalida e il monitoraggio dei dati. Questi strumenti consentono di automatizzare i processi di rilevamento e correzione dei problemi di qualità dei dati, che è fondamentale per ridimensionare le iniziative di qualità dei dati in set di dati di grandi dimensioni tipici nei data lake
Per i team che usano DLT, è possibile usare le aspettative per definire i vincoli di qualità dei dati sul contenuto di un set di dati. Le aspettative consentono di garantire che i dati in arrivo in tables soddisfino i requisiti di qualità dei dati e forniscano informazioni dettagliate sulla qualità dei dati per ogni pipeline update.
Implementare e applicare definizioni e formati di dati standardizzati
I formati e le definizioni di dati standardizzati consentono di ottenere una rappresentazione coerente dei dati in tutti i sistemi per facilitare l'integrazione e l'analisi dei dati, ridurre i costi e migliorare il processo decisionale migliorando la comunicazione e la collaborazione tra team e reparti. Consente inoltre di fornire una struttura per la creazione e la gestione della qualità dei dati.
Sviluppare e applicare un dizionario dati standard che include definizioni, formati e values accettabili per tutti gli elementi dati usati nell'organizzazione.
Usare convenzioni di denominazione coerenti, formati di data e unità di misura in tutti i database e le applicazioni per evitare discrepanze e confusione.