Condividi tramite


Come ottenere la derivazione da Airflow in Microsoft Purview (anteprima)

Airflow è una piattaforma di automazione e pianificazione del flusso di lavoro open source che può essere usata per creare e gestire pipeline di dati. Microsoft Purview supporta la raccolta della derivazione di Airflow integrando con OpenLineage, un framework aperto per la raccolta e l'analisi della derivazione dei dati. Informazioni sul funzionamento di Airflow con OpenLineage sono disponibili qui.

L'abilitazione di OpenLineage in Airflow tiene automaticamente traccia dei metadati e delle derivazioni dei processi e dei set di dati durante l'esecuzione dei dag. Le informazioni vengono inviate a un Hub eventi di Azure configurato. Microsoft Purview sottoscrive gli eventi, li analizza e inserisce nella mappa dati.

Importante

Al momento questa funzionalità è disponibile in anteprima. Le Condizioni aggiuntive per l'uso per le anteprime di Microsoft Azure includono termini legali aggiuntivi che si applicano alle funzionalità di Azure in versione beta, in anteprima o in altro modo non ancora rilasciate nella disponibilità generale.

Funzionalità supportate

Le versioni di Airflow supportate sono 1.10+ e 2.0-2.7.

Microsoft Purview supporta la raccolta di metadati e derivazione quando in Airflow vengono usati i tipi di origini dati seguenti:

  • Amazon RDS per PostgreSQL
  • Database di Azure per PostgreSQL
  • Google BigQuery
  • PostgreSQL
  • Fiocco di neve

Vengono acquisiti i metadati di Airflow seguenti:

  • Area di lavoro Airflow
  • DAG di flusso d'aria
  • Attività Flusso d'aria

La derivazione viene raccolta in Microsoft Purview dopo l'esecuzione corretta del dag in modo basato su eventi.

Limitazioni note

  • La derivazione a livello di colonna non è attualmente supportata. Viene acquisito lo schema degli asset di dati.
  • Se nelle attività viene fatto riferimento alle viste di database, queste vengono attualmente acquisite come asset di tabella.
  • Tutti i metadati vengono inseriti nella raccolta radice di Microsoft Purview. Gli asset già esistenti nella mappa dati vengono conservati nella raccolta configurata.

Come portare la derivazione di Airflow in Microsoft Purview

Come prerequisito, è necessaria un'istanza di Airflow in esecuzione.

Per ottenere la derivazione da Airflow in Microsoft Purview, è necessario:

  1. Configurare un Hub eventi di Azure
  2. Configurare Hub eventi per pubblicare messaggi in Microsoft Purview
  3. Configurare Airflow con OpenLineage
  4. Eseguire processi Airflow e visualizzare gli asset/derivazione

Configurare Hub eventi di Azure

Configurare un Hub eventi di Azure come destinatario dei metadati e della derivazione rilevati da OpenLineage in Airflow.

  1. Creare uno spazio dei nomi Hub eventi di Azure.

  2. Creare un hub eventi. Assegnare all'hub eventi il nome "microsoft_internal_openlineage".

    Screenshot della creazione di un nuovo hub eventi in Hub eventi di Azure

  3. Passare all'hub eventi "microsoft_internal_openlineage" ->Controllo di accesso (IAM) ->Aggiungere l'assegnazione di ruolo, assegnare il ruolo "Hub eventi di Azure Ricevitore dati" all'identità gestita dell'account Microsoft Purview. Per i passaggi dettagliati, vedere Assegnare ruoli di Azure usando il portale di Azure.

Configurare Hub eventi per pubblicare messaggi in Microsoft Purview

Microsoft Purview supporta l'utilizzo e il push di eventi da/verso hub eventi personalizzati. Seguire questo documento per configurare Hub eventi per Microsoft Purview: Configurare Hub eventi con Microsoft Purview per inviare e ricevere i messaggi degli argomenti di Atlas Kafka.

Riepilogo:

  • Passare alla scheda Account Microsoft Purview -> Risorse gestite e disabilitare lo spazio dei nomi di Hub eventi gestito.

  • Passare alla scheda configurazione Kafka ->+ Aggiungi configurazione ->Configurazione hook, immettere un nome e selezionare lo spazio dei nomi di Hub eventi e Hub eventi creati nel passaggio precedente.

    Screenshot della configurazione di Hub eventi per la pubblicazione di messaggi in Microsoft Purview

Configurare Airflow con OpenLineage

Installazione:

Per scaricare e installare la libreria "openlineage-airflow" più recente, aggiornare il file "requirements.txt" dell'istanza di Airflow in esecuzione con:

openlineage-airflow

Nota

La versione airflow e la versione openlineage-airflow devono corrispondere. Ad esempio, quando si usa Airflow 2.7.1, è possibile usare openlineage-airflow versione 1.1.0 o 1.2.0. È possibile visualizzare le versioni corrispondenti in questo sito Web.

Configurazione:

Configurare quindi l'istanza di Hub eventi di Azure come destinazione a cui OpenLineage invia gli eventi.

  1. Creare un file "openlineage.yml" nel percorso radice di Airflow. Il contenuto del file è il seguente:

    transport:
      type: "kafka"
      config:
        bootstrap.servers: "{EVENTHUB_SERVER}:9093"
        security.protocol: "SASL_SSL"
        sasl.mechanism: "PLAIN"
        sasl.username: "$ConnectionString"
        sasl.password: "{PASSWORD}"
        client.id: "airflow-client"
      topic: "microsoft_internal_openlineage"
      flash: True
    

    Sostituire i due segnaposto con i valori:

    • Ottenere dall'hub {EVENTHUB_SERVER} eventi spazio dei nomi ->Nome host:

      Screenshot di Get host name from Event Hubs namespace (Ottieni nome host dallo spazio dei nomi di Hub eventi)

    • Ottenere dall'hub {PASSWORD} eventi spazio dei nomi ->Criteri di accesso condiviso -Stringa di>connessione - chiave primaria o Stringa di connessione - Chiave secondaria:

      Screenshot di Get event hub stringa di connessione key

  2. Riavviare il server Airflow.

Eseguire processi Airflow e visualizzare gli asset/derivazione

È ora possibile eseguire i processi di Airflow, quindi passare al portale di governance di Microsoft Purview per esplorare/cercare/visualizzare gli asset. Gli asset dovrebbero essere visualizzati poco dopo l'esecuzione corretta del dag.

Esplorare gli asset di Airflow:

Screenshot di Sfoglia Unified Catalog per tipo di origine

Screenshot di Browse Airflow source (Sfoglia origine Airflow) per visualizzare i dettagli

Visualizzare i dettagli dell'asset attività Airflow con derivazione:

Screenshot della visualizzazione dei dettagli di derivazione di Airflow sull'asset dell'attività Airflow

Suggerimenti per la risoluzione dei problemi

Se si esegue il processo Airflow ma non vengono visualizzati gli asset/derivazione corrispondenti visualizzati in Microsoft Purview:

  • Controllare se il caso d'uso di Airflow è supportato da Microsoft Purview. Fare riferimento alla sezione relativa alle funzionalità supportate .
  • Passare all'istanza di Hub eventi per verificare se sono presenti richieste e messaggi in ingresso. In caso contrario, controllare la configurazione openlineage in Airflow.

Passaggi successivi