Condividi tramite


Connettersi al catalogo Unity di Azure Databricks e gestirlo in Microsoft Purview

Questo articolo illustra come registrare Azure Databricks e come eseguire l'autenticazione e interagire con il catalogo Unity di Azure Databricks in Microsoft Purview. Per altre informazioni su Microsoft Purview, vedere l'articolo introduttivo.

Funzionalità supportate

Estrazione dei metadati Analisi completa Analisi incrementale Analisi con ambito Classificazione Applicazione di etichette Criteri di accesso Derivazione Condivisione dati Visualizzazione in diretta
No No No No

Durante l'analisi del catalogo Unity di Azure Databricks, Microsoft Purview supporta:

  • Estrazione di metadati tecnici, tra cui:
    • Metastore
    • Cataloghi
    • Schemi
    • Tabelle che includono le colonne
    • Viste incluse le colonne
  • Recupero della derivazione delle relazioni tra gli asset tra tabelle, viste e colonne durante l'esecuzione del notebook.

Quando si configura l'analisi, è possibile scegliere di analizzare l'intero catalogo Unity o di definire l'ambito dell'analisi in un subset di cataloghi.

Nota

Questo connettore porta i metadati da Azure Databricks Unity Catalog. Per analizzare i metadati con ambito area di lavoro di Azure Databricks, fare riferimento al connettore Metastore Hive di Azure Databricks.

Limitazioni note

  • Quando l'oggetto viene eliminato dall'origine dati, attualmente l'analisi successiva non rimuove automaticamente l'asset corrispondente in Microsoft Purview.
  • Per altre informazioni su altre limitazioni correlate alla derivazione nativa di Azure Databricks, vedere la documentazione di Azure Databricks.

Prerequisiti

  • È necessario avere un account Azure con una sottoscrizione attiva. Creare un account gratuitamente.

  • È necessario disporre di un account Microsoft Purview attivo.

  • È necessaria una Key Vault di Azure e per concedere a Microsoft Purview le autorizzazioni per accedere ai segreti.

  • Sono necessarie le autorizzazioni Amministratore origine dati e Lettore dati per registrare un'origine e gestirla nel portale di governance di Microsoft Purview. Per altre informazioni sulle autorizzazioni, vedere Controllo di accesso in Microsoft Purview.

  • Per analizzare il catalogo Unity di Azure Databricks, Microsoft Purview si connette a un SQL Warehouse nell'area di lavoro e usa il token di accesso personale per l'autenticazione. È necessario avere un'area di lavoro di Azure Databricks abilitata e collegata al metastore da analizzare. Nell'area di lavoro di Azure Databricks:

    • Creare un'istanza di SQL Warehouse. Se applicabile, è possibile usare anche lo starter warehouse creato automaticamente.

      • Prendere nota del percorso HTTP. È possibile trovarlo nell'area di lavoro di Azure Databricks -> SQL Warehouses -> il warehouse -> Dettagli connessione -> Percorso HTTP.

      • Assicurarsi che l'utente disponga dell'autorizzazione Can Use per connettersi al warehouse SQL di Azure Databricks. Altre informazioni sul controllo di accesso di SQL Warehouse.

  • Per recuperare la derivazione da Azure Databricks usando Microsoft Purview, è necessario che siano soddisfatti i prerequisiti seguenti:

    • Abilitare lo schema di sistema: lo schema di sistema system.access deve essere abilitato nel catalogo unity. Ciò è necessario perché le informazioni sulla derivazione vengono archiviate nelle tabelle di sistema e l'abilitazione di questo schema consente l'accesso a tali tabelle. Altre informazioni sul monitoraggio dell'utilizzo con le tabelle di sistema.

    • Privilegi utente: l'account utente usato per l'analisi deve disporre di privilegi SELECT nelle tabelle di sistema seguenti:

      • system.access.table_lineage

      • system.access.column_lineage

      Queste autorizzazioni sono necessarie perché i dati di derivazione vengono letti direttamente dalle tabelle di sistema e senza l'accesso necessario, Microsoft Purview non può recuperare le informazioni di derivazione.

  • Se l'area di lavoro di Azure Databricks non consente l'accesso dalla rete pubblica o se l'account Microsoft Purview non abilita l'accesso da tutte le reti, è possibile usare il Rete virtuale Integration Runtime gestito o un runtime di integrazione self-hosted supportato da kubernetes per l'analisi. È possibile configurare un endpoint privato gestito per Azure Databricks in base alle esigenze per stabilire la connettività privata.

Autenticazione per un'analisi

È possibile usare token di accesso personali, identità gestite o metodi di autenticazione dell'entità servizio per l'analisi del catalogo Unity di Azure Databricks.

Se si usa un'identità gestita assegnata dall'utente o dal sistema

  1. Selezionare l'identità gestita assegnata dal sistema o assegnata dall'utente in Credenziali.

Per usare un'identità gestita assegnata dall'utente, è necessario configurare l'autenticazione delle identità gestite di Azure per Azure Databricks.

  • Per tutti gli oggetti che si desidera inserire in Microsoft Purview, l'utente o l'entità servizio deve avere almeno il privilegio SELECT per tabelle/viste, USE CATALOG nel catalogo dell'oggetto e USE SCHEMA nello schema dell'oggetto.

Registrazione

Questa sezione descrive come registrare un'area di lavoro di Azure Databricks in Microsoft Purview usando il portale di governance di Microsoft Purview.

  1. Passare all'account Microsoft Purview.

  2. Selezionare Mappa dati nel riquadro sinistro.

  3. Selezionare Registra.

  4. In Registra origini selezionare Azure Databricks Unity Catalog Continue (Continua catalogo> Unity di Azure Databricks).

  5. Nella schermata Registra origini (Catalogo Unity di Azure Databricks) eseguire le operazioni seguenti:

  6. In Nome immettere un nome che verrà visualizzato da Microsoft Purview come origine dati.

    1. Per METASTORE ID specificare l'ID metastore per il metastore del catalogo Unity di Azure Databricks che si vuole analizzare.

    2. Selezionare una raccolta dall'elenco.

Screenshot della registrazione dell'origine del catalogo Unity di Azure Databricks.

  1. Seleziona Fine.

Analisi

Consiglio

Per risolvere eventuali problemi relativi all'analisi:

  1. Verificare di aver seguito tutti i prerequisiti.
  2. Esaminare la documentazione sulla risoluzione dei problemi di analisi.

Usare la procedura seguente per analizzare Azure Databricks per identificare automaticamente gli asset. Per altre informazioni sull'analisi in generale, vedere Analisi e inserimento in Microsoft Purview.

  1. Passare a Origini.

  2. Selezionare Azure Databricks registrato.

  3. Selezionare + Nuova analisi.

  4. Quando richiesto, specificare i dettagli seguenti:

    1. Nome: immettere un nome per l'analisi.

    2. Connettersi tramite il runtime di integrazione: scegliere il runtime di integrazione predefinito di Azure, il runtime di integrazione della rete virtuale gestita o un runtime di integrazione self-hosted supportato da Kubernetes creato.

    3. Credenziali: selezionare le credenziali per connettersi all'origine dati. Assicurarsi di:

    4. URL area di lavoro: Specificare l'URL per l'area di lavoro da analizzare.

    5. Percorso HTTP: Specificare il percorso HTTP di SQL Warehouse di Databricks a cui Microsoft Purview si connetterà ed eseguirà l'analisi, ad esempio /sql/1.0/endpoints/xxxxxxxxxxxxxxxx. È possibile trovarlo nell'area di lavoro di Azure Databricks -> SQL Warehouses -> il warehouse -> Dettagli connessione -> Percorso HTTP.

    6. Estrazione derivazione: Attivare o disattivare l'estrazione della derivazione su per recuperare la derivazione degli asset analizzati.

  5. Selezionare Test connessione per convalidare le impostazioni.

    Screenshot della configurazione dell'analisi del catalogo Unity di Azure Databricks.

  6. Selezionare Continua.

  7. Per Esegui analisi, scegliere se configurare una pianificazione o eseguire l'analisi una sola volta.

  8. Esaminare l'analisi e selezionare Salva ed esegui.

Al termine dell'analisi, vedere come esplorare e cercare gli asset.

Visualizzare le analisi e le esecuzioni di analisi

Per visualizzare le analisi esistenti:

  1. Passare al portale di Microsoft Purview. Nel riquadro sinistro selezionare Mappa dati.
  2. Selezionare l'origine dati. È possibile visualizzare un elenco di analisi esistenti nell'origine dati in Analisi recenti oppure è possibile visualizzare tutte le analisi nella scheda Analisi .
  3. Selezionare l'analisi con i risultati che si desidera visualizzare. Il riquadro mostra tutte le esecuzioni di analisi precedenti, insieme allo stato e alle metriche per ogni esecuzione dell'analisi.
  4. Selezionare l'ID di esecuzione per controllare i dettagli dell'esecuzione dell'analisi.

Gestire le analisi

Per modificare, annullare o eliminare un'analisi:

  1. Passare al portale di Microsoft Purview. Nel riquadro sinistro selezionare Mappa dati.

  2. Selezionare l'origine dati. È possibile visualizzare un elenco di analisi esistenti nell'origine dati in Analisi recenti oppure è possibile visualizzare tutte le analisi nella scheda Analisi .

  3. Selezionare l'analisi da gestire. È quindi possibile eseguire automaticamente le seguenti azioni:

    • Modificare l'analisi selezionando Modifica analisi.
    • Annullare un'analisi in corso selezionando Annulla esecuzione analisi.
    • Eliminare l'analisi selezionando Elimina analisi.

Nota

  • L'eliminazione dell'analisi non elimina gli asset del catalogo creati dalle analisi precedenti.

Esplorare e cercare gli asset

Dopo aver eseguito l'analisi di Azure Databricks, è possibile esplorare Unified Catalog o cercare Unified Catalog per visualizzare i dettagli e la derivazione degli asset.

Durante l'esplorazione in base ai tipi di origine, vengono visualizzate due voci rispettivamente per Azure Databricks Unity Catalog e Azure Databricks . Il primo contiene gli artefatti del catalogo Unity, inclusi il metastore e i relativi cataloghi,schemi/tabelle/viste, mentre il secondo contiene gli artefatti dell'area di lavoro.

Screenshot degli asset di esplorazione in base al tipo di origine.

Dall'asset dell'area di lavoro di Azure Databricks è possibile trovare anche il catalogo Unity associato nella scheda Proprietà, invertito.

Screenshot della ricerca del catalogo Unity associato con l'origine Azure Databricks.

Derivazione

Quando si esplora un particolare asset di Azure Databricks, è possibile visualizzare i notebook che hanno acquisito la derivazione.

Passare alla scheda asset -> derivazione. Se applicabile, è possibile visualizzare la derivazione nell'asset notebook o nella tabella/visualizzazione di Azure Databricks.

Screenshot dei notebook di esplorazione presenti nell'asset dell'area di lavoro azure Databricks Unity Catalog associato.

Screenshot della derivazione del notebook presente nell'asset dell'area di lavoro azure Databricks Unity Catalog associato.

Fare riferimento alla sezione relativa alle funzionalità supportate negli scenari di derivazione del catalogo Unity di Databricks supportati. Per altre informazioni sulla derivazione in generale, vedere la guida dell'utente alla derivazione e alla derivazione dei dati.

Domande frequenti (FAQ)

La derivazione a livello di colonna da Unity Catalog viene acquisita da Microsoft Purview?

Microsoft Purview è in grado di acquisire la derivazione sia a livello di tabella/vista del catalogo unity che a livello di colonna.

Non vedo la derivazione a livello di colonna, cosa sta succedendo?

La derivazione a livello di colonna viene generata quando il notebook viene eseguito da un cluster e non viene generato tramite un sql warehouse.

Viene visualizzato un errore di timeout, che cosa si fa?

Quando nell'area di lavoro è presente un volume elevato di asset, l'analisi potrebbe non riuscire. In questo caso, è possibile definire l'ambito dell'analisi per alcuni cataloghi alla volta, riducendo il volume di asset per analisi e consentendo il completamento delle analisi.

Ho appena eseguito il mio notebook, ma Microsoft Purview non ha recuperato la derivazione. Cosa sta succedendo?

Databricks potrebbe avere qualche minuto di ritardo per aggiornare le informazioni sulla derivazione nelle tabelle di sistema dopo l'esecuzione del notebook. Microsoft Purview sarà in grado di recuperare la derivazione dopo l'aggiornamento delle tabelle di sistema.

Passaggi successivi

Ora che l'origine è registrata, usare le guide seguenti per altre informazioni su Microsoft Purview e i dati: