Condividi tramite


Zona di destinazione per la gestione dei dati

La zona di destinazione di gestione dei dati è una funzione di gestione centrale per l'analisi su scala cloud. È responsabile della governance della piattaforma di analisi.

Diagramma della panoramica della zona di destinazione della gestione dei dati.

La zona di destinazione della gestione dei dati è una sottoscrizione separata che include gli stessi servizi standard della zona di destinazione di Azure. Consente la governance dei tuoi dati tramite crawler, che si connettono ai tuoi data lake e all'archiviazione in formati multipli nelle zone di destinazione dei dati. Il peering di reti virtuali connette la zona di destinazione della gestione dei dati alle zone di destinazione dei dati e alla sottoscrizione della connettività.

Questa architettura è un punto di partenza ed è possibile modificarla in base ai requisiti aziendali e tecnici specifici durante la pianificazione dell'implementazione della zona di destinazione della gestione dei dati.

Nota

La persistenza poliglotta è un termine di archiviazione che descrive la scelta tra diverse tecnologie di archiviazione dei dati per supportare i vari tipi di dati e le relative esigenze di archiviazione. Fondamentalmente, la persistenza poliglotta è il concetto secondo cui un'applicazione può usare più di una tecnologia di archiviazione o database di base.

Importante

La zona di destinazione della gestione dei dati deve essere distribuita come sottoscrizione separata in un gruppo di gestione con la governance appropriata. È quindi possibile controllare la governance nell'organizzazione. L'acceleratore della zona di destinazione di Azure illustra il modo in cui gestire le zone di destinazione di Azure.

Governance dei dati

Analisi della scalabilità cloud suggerisce l'uso di Microsoft Purview. In alternativa, è possibile distribuire soluzioni Microsoft Partner per gestire funzioni di governance dei dati specifiche. Le funzioni chiave da considerare nell'architettura includono un catalogo dati globale, la gestione dei dati master, la condivisione dei dati e i contratti, il catalogo API, la gestione della qualità dei dati e un repository di modellazione dei dati.

I prodotti di governance dei dati dei partner Microsoft che richiedono la distribuzione in una sottoscrizione devono essere distribuiti nel gruppo di risorse Governance dei dati all'interno dell'area di destinazione della gestione dei dati.

Catalogo dati

Il catalogo dati registra e gestisce le informazioni sui dati in una posizione centralizzata e le rende disponibili all'organizzazione. Protegge le aziende dalla duplicazione dei prodotti di dati causata dall'inserimento di dati ridondanti da parte di team di progetto diversi. Si consiglia di creare un servizio di catalogazione dei dati per definire i metadati dei prodotti di dati archiviati nelle zone di raccolta dati.

L'analisi su scala cloud si basa su Microsoft Purview per registrare le origini dati aziendali, classificarle, garantire la qualità dei dati e offrire un accesso self-service sicuro.

Microsoft Purview è un servizio basato su tenant e può comunicare con ogni zona di destinazione dei dati creando una rete virtuale gestita distribuita nell'area delle zone di destinazione dei dati. È possibile distribuire i runtime di integrazione della rete virtuale gestita di Azure all'interno delle reti virtuali gestite di Microsoft Purview in qualsiasi area di Microsoft Purview disponibile. Da qui, il runtime di integrazione della rete virtuale gestita può usare endpoint privati per connettersi alle origini dati supportate e analizzarle in modo sicuro. Per altre informazioni, vedere Usare una rete virtuale gestita con l'account Microsoft Purview. La creazione di un runtime di integrazione della rete virtuale gestita all'interno della rete virtuale gestita garantisce un processo di integrazione dei dati isolato e sicuro.

Quando si usa Azure Databricks, è consigliabile usare Azure Databricks Unity Catalog oltre a Microsoft Purview. Azure Databricks Unity Catalog offre funzionalità centralizzate di controllo degli accessi, verifica, tracciabilità e individuazione dei dati nelle aree di lavoro di Databricks. Per le procedure consigliate per la configurazione del catalogo Unity, vedere procedure consigliate per il catalogo Unity.

Nota

Anche se questa documentazione riguarda principalmente l'uso di Microsoft Purview per la governance, le aziende potrebbero aver investito in altri prodotti, ad esempio Alation, Okera o Collibra. Queste soluzioni sono basate su sottoscrizioni ed è consigliabile distribuirle nella zona di destinazione di gestione dei dati. Occorre essere consapevoli che potrebbe essere necessaria un'integrazione personalizzata.

Gestione dei dati master

Il controllo della gestione dei dati master risiede nella zona di destinazione della gestione dei dati. La gestione dei dati master nel mesh di dati contiene considerazioni specifiche da richiedere per il mesh di dati.

Molte soluzioni di gestione dei dati master si integrano completamente a Microsoft Entra ID. Questa integrazione consente di proteggere i dati e di fornire visualizzazioni diverse per gruppi di utenti diversi.

Per altre informazioni, vedere Sistema di gestione dei dati master.

Condivisione dei dati e contratti

L'analisi su scala cloud usa la gestione entitlement di Microsoft Entra o i criteri di Microsoft Purview per controllare l'accesso alla condivisione dei dati. Nonostante questo, potrebbe essere necessario un repository per contratti e condivisione. Questo repository è una funzione organizzativa e deve risiedere nella zona di destinazione della gestione dei dati.

I contratti devono fornire informazioni sulla convalida dei dati, sui modelli e sui criteri di sicurezza.

Per altre informazioni, vedere Contratti sui dati.

Catalogo API

I team delle applicazioni dei dati creano varie API per le loro applicazioni di dati. Queste API possono essere difficili da individuare nell'organizzazione. L'inserimento di un catalogo di API nella zona di destinazione della gestione dei dati può risolvere questo problema.

Un catalogo di API consente di standardizzare la documentazione e offre una posizione per la collaborazione interna sulle API. Favorisce, inoltre, il controllo del consumo, della pubblicazione e della governance nell'organizzazione.

Gestione della qualità dei dati

Continuare con la soluzione corrente.

Gestisci la qualità dei dati il più vicino possibile all'origine dei dati per evitare che i problemi di qualità si propaghino nei sistemi di analisi e intelligenza artificiale. Integrando le metriche di qualità e la convalida nei processi di dati, si allinea la gestione della qualità ai team più familiari con i dati, garantendo una comprensione più approfondita e una migliore gestione degli asset di dati.

La derivazione dei dati offre anche un'attendibilità della qualità dei dati e deve essere fornita per tutti i prodotti dati.

Per altre informazioni sulla gestione della qualità dei dati, vedere Qualità dei dati.

Repository di modellazione dei dati

È necessario acquisire e archiviare modelli di relazioni tra entità in una posizione centrale all'interno della zona di atterraggio per la gestione dei dati, fornendo agli utenti di dati un'unica posizione per trovare diagrammi concettuali.

Molti clienti usano ER Studio e OrbusInfinity per modellare i prodotti di dati prima dell'ingestione.

Livello di servizio

L'organizzazione potrebbe decidere di creare molti servizi di automazione per aumentare le funzionalità di analisi su scala cloud. Questi servizi di automazione promuovono soluzioni di conformità e onboarding per lo stato dell'analisi.

Se si decide di creare questi servizi di automazione, è necessario disporre di un'interfaccia utente che funge sia da marketplace dei dati sia da console operativa. Questa interfaccia deve basarsi su un archivio di metadati sottostante, ad esempio gli standard di metadati .

Il marketplace dei dati o la console operatore chiama un livello intermedio di microservizi per facilitare l'onboarding, la registrazione dei metadati, il provisioning della sicurezza, il ciclo di vita dei dati e l'osservabilità.

È possibile effettuare il provisioning del gruppo di risorse del livello di servizio per ospitare l'archivio metadati.

Importante

Nessuno di questi servizi di automazione sono prodotti e non illustrano alcun elemento della roadmap. Sono elencati per valutare quali elementi automatizzare.

Service Ambito del servizio
Provisioning della zona di destinazione dei dati Questo servizio crea una nuova zona di destinazione dei dati. È improbabile che abbia un utilizzo elevato, ma è incluso per la completezza della soluzione di onboarding end-to-end. Per altre informazioni, vedere Eseguire il provisioning dell'analisi su scala cloud
Onboarding dei prodotti di dati Questo servizio crea e modifica i gruppi di risorse relativi a un tenant di cui è stato eseguito l'onboarding. Contiene anche funzionalità per aggiornare e effettuare il downgrade degli SKU e per attivare e disattivare i gruppi di risorse per qualsiasi tenant o servizio di cui è stato eseguito l'onboarding. Crea una nuova zona di destinazione dei dati DevOps. Per altre informazioni, vedere Eseguire il provisioning dell'analisi su scala cloud
Inserimento indipendente dai dati Questo microservizio crea nuove origini dati per l'inserimento nelle zone di destinazione dei dati comunicando con un metastore del database SQL di Azure Data Factory in ogni zona di destinazione dei dati. Per altre informazioni, vedere Come i framework di inserimento automatico supportano l'analisi su scala cloud in Azure
Metadati UFX Questo servizio espone e crea metadati per la piattaforma. Per altre informazioni, vedere Standard dei metadati.
Provisioning dell'accesso Questo servizio crea pacchetti di accesso, criteri di accesso e processi di approvazione dell'accesso degli asset (manuale o automatico) tramite SPN/UPN. Può anche esporre un'API per fornire un elenco di richieste di sottoscrizione (asset) inviate dagli utenti negli ultimi 90 giorni. Per altre informazioni, vedere Gestione dell'accesso ai dati.
Ciclo di vita dei dati Questo servizio è responsabile della gestione del ciclo di vita dei dati in base ai metadati. Questa manutenzione può includere lo spostamento dei dati nell'archiviazione offline sicura e l'eliminazione di record non più necessari. Per altre informazioni, vedere Gestione del ciclo di vita dei dati
Onboarding del dominio dati APPLICABILE UNICAMENTE AL MESH DI DATI. Questo servizio acquisisce i metadati relativi ai nuovi domini ed esegue l'onboarding dei nuovi domini in base alle esigenze. Può anche creare, aggiornare, attivare e disattivare qualsiasi riga di dominio o servizio che è possibile creare in un microservizio. Per altre informazioni, vedere Eseguire il provisioning dell'analisi su scala cloud

Registro Azure Container

La zona di destinazione della gestione dei dati ospita Registro Azure Container. Registro Azure Container consente alle operazioni della piattaforma dati di distribuire contenitori standard per l'uso in progetti di data science usati dai team dell'applicazione dati.

Passaggi successivi