Condividi tramite


Acquisire i dati modificati da Azure Data Lake Storage Gen2 a database SQL di Azure usando una risorsa change data capture

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!

In questo articolo si usa l'interfaccia utente di Azure Data Factory per creare una risorsa change data capture (CDC). La risorsa preleva i dati modificati da un'origine Azure Data Lake Storage Gen2 e lo aggiunge a database SQL di Azure in tempo reale.

In questo articolo vengono illustrate le operazioni seguenti:

  • Creare una risorsa CDC.
  • Monitorare l'attività CDC.

È possibile modificare ed espandere il modello di configurazione in questo articolo.

Prerequisiti

Prima di iniziare le procedure descritte in questo articolo, assicurarsi di disporre di queste risorse:

  • Sottoscrizione di Azure. Se non si ha una sottoscrizione di Azure, creare un account Azure gratuito.
  • Database SQL. Usare database SQL di Azure come archivio dati di origine. Se non si ha un database SQL, crearne uno nel portale di Azure.
  • Account di archiviazione. È possibile usare Delta Lake archiviato in Azure Data Lake Storage Gen2 come archivio dati di destinazione. Se non si ha un account di archiviazione, vedere Creare un account di archiviazione per la procedura per crearne uno.

Creare un artefatto CDC

  1. Passare al riquadro Autore nella data factory. Sotto Pipeline viene visualizzato un nuovo artefatto di primo livello denominato Change Data Capture (anteprima).

    Screenshot di un nuovo artefatto di primo livello per Change Data Capture nel riquadro Risorse factory.

  2. Passare il puntatore del mouse su Change Data Capture (anteprima) fino a visualizzare tre puntini. Selezionare quindi Change Data Capture (anteprima).

    Screenshot del pulsante per le azioni change data capture visualizzate sul nuovo artefatto di primo livello.

  3. Selezionare New CDC (preview). Questo passaggio apre un riquadro a comparsa per avviare il processo guidato.

    Screenshot di un elenco di azioni change data capture.

  4. Viene richiesto di assegnare un nome alla risorsa CDC. Per impostazione predefinita, il nome è "adfcdc" con un numero che incrementa di 1. È possibile sostituire questo nome predefinito con un nome scelto.

    Screenshot della casella di testo per aggiornare il nome di una risorsa.

  5. Usare l'elenco a discesa per scegliere l'origine dati. Per questo articolo selezionare DelimitedText.

    Screenshot del riquadro a comparsa del processo guidato con le opzioni di origine in un elenco a discesa.

  6. Viene richiesto di selezionare un servizio collegato. Creare un nuovo servizio collegato o selezionare uno esistente.

    Screenshot della casella per scegliere o creare un servizio collegato.

  7. Usare l'area Impostazioni origine per impostare facoltativamente configurazioni di origine avanzate, inclusi delimitatori di colonna e di riga.

    Screenshot delle impostazioni di origine avanzate per impostare i delimitatori.

    Se queste impostazioni di origine non vengono modificate manualmente, vengono impostate sulle impostazioni predefinite.

  8. Usare il pulsante Sfoglia per selezionare la cartella dati di origine.

    Screenshot di un'icona di cartella per cercare un percorso di cartella.

  9. Dopo aver selezionato un percorso di cartella, selezionare Continua per impostare la destinazione dati.

    Screenshot del pulsante Continua nel processo guidato per selezionare le destinazioni dati.

    È possibile scegliere di aggiungere più cartelle di origine usando il pulsante più (+). Anche le altre origini devono usare lo stesso servizio collegato già selezionato.

  10. Selezionare un valore tipo di destinazione usando l'elenco a discesa. Per questo articolo selezionare database SQL di Azure.

    Screenshot di un menu a discesa di tutti i tipi di destinazione dati.

  11. Viene richiesto di selezionare un servizio collegato. Creare un nuovo servizio collegato o selezionare uno esistente.

    Screenshot della casella per scegliere o creare un servizio collegato nella destinazione dati.

  12. Per Le tabelle di destinazione è possibile creare una nuova tabella di destinazione o selezionare una tabella esistente:

    • Per creare una tabella di destinazione, selezionare la scheda Nuove entità e quindi selezionare Modifica nuove tabelle.

      Screenshot della scheda per creare nuove tabelle per la destinazione.

    • Per selezionare una tabella esistente, selezionare la scheda Entità esistenti e quindi usare la casella di controllo per scegliere una tabella. Usare il pulsante Anteprima per visualizzare i dati della tabella.

      Screenshot della scheda per scegliere le tabelle per la destinazione.

    Se le tabelle esistenti nella destinazione hanno nomi corrispondenti, vengono selezionate per impostazione predefinita in Entità esistenti. In caso contrario, le nuove tabelle con nomi corrispondenti vengono create in Nuove entità. Inoltre, è possibile modificare nuove tabelle usando il pulsante Modifica nuove tabelle .

  13. È possibile usare le caselle di controllo per scegliere più tabelle di destinazione dal database SQL. Dopo aver scelto le tabelle di destinazione, selezionare Continua.

    Screenshot del pulsante Continua nel processo guidato per procedere al passaggio successivo.

  14. Viene visualizzata una nuova scheda per l'acquisizione dei dati delle modifiche. Questa scheda è CDC Studio, in cui è possibile configurare la nuova risorsa.

    Screenshot di Change Data Capture Studio.

    Viene creato automaticamente un nuovo mapping. È possibile aggiornare le selezioni Tabella di origine e Tabella di destinazione per il mapping usando gli elenchi a discesa.

    Screenshot del mapping da origine a destinazione nello studio change data capture.

  15. Dopo aver selezionato le tabelle, le relative colonne vengono mappate per impostazione predefinita con l'interruttore Mappa automatica attivato. Il mapping automatico esegue automaticamente il mapping delle colonne in base al nome nel sink, rileva le modifiche di nuova colonna quando lo schema di origine si evolve e passa queste informazioni ai tipi di sink supportati.

    Se si vuole usare la mappa automatica e non modificare i mapping delle colonne, passare direttamente al passaggio 18.

    Screenshot dell'interruttore per il mapping automatico attivato.

    Se si desidera abilitare i mapping delle colonne, selezionare i mapping e disattivare l'interruttore Mappa automatica . Selezionare quindi il pulsante Mapping colonne per visualizzare i mapping.

    Screenshot della selezione del mapping, dell'interruttore per il mapping automatico disattivato e del pulsante per i mapping delle colonne.

    È possibile tornare al mapping automatico in qualsiasi momento attivando l'interruttore Mappa automatica .

  16. Visualizzare i mapping delle colonne. Usare gli elenchi a discesa per modificare i mapping delle colonne per metodo di mapping, colonna di origine e colonna di destinazione.

    Screenshot della pagina per la modifica dei mapping delle colonne.

    Da questa pagina è possibile:

    • Aggiungere altri mapping di colonne usando il pulsante Nuovo mapping . Usare gli elenchi a discesa per effettuare selezioni per il metodo Mapping, la colonna Origine e la colonna Target.
    • Selezionare la colonna Chiavi se si vuole tenere traccia dell'operazione di eliminazione per i tipi di sink supportati.
    • Selezionare il pulsante Aggiorna in Anteprima dati per visualizzare l'aspetto dei dati nella destinazione.

    Screenshot del pulsante per l'aggiunta di mapping delle colonne, l'elenco a discesa per i metodi di mapping, la colonna Chiavi e il pulsante Aggiorna.

  17. Al termine del mapping, selezionare il pulsante freccia per tornare all'area di disegno CDC principale.

    Screenshot del pulsante per tornare alla pagina di mapping della tabella.

  18. È possibile aggiungere altri mapping da origine a destinazione in un unico artefatto CDC. Usare il pulsante Modifica per aggiungere altre origini dati e destinazioni. Selezionare quindi Nuovo mapping e usare gli elenchi a discesa per impostare una nuova origine e una nuova destinazione. È possibile attivare o disattivare la mappa automatica per ognuno di questi mapping in modo indipendente.

    Screenshot del pulsante per aggiungere nuove origini e il pulsante per impostare un nuovo mapping da origine a destinazione.

  19. Al termine dei mapping, impostare la latenza CDC usando il pulsante Imposta latenza .

    Screenshot del pulsante Imposta latenza nella parte superiore dell'area di disegno.

  20. Selezionare la latenza di CDC e quindi selezionare Applica per apportare le modifiche.

    Per impostazione predefinita, la latenza è impostata su 15 minuti. L'esempio in questo articolo usa l'opzione In tempo reale per la latenza. La latenza in tempo reale preleva continuamente le modifiche nei dati di origine in intervalli inferiori a 1 minuto.

    Per altre latenze (ad esempio, se si selezionano 15 minuti), Change Data Capture elabora i dati di origine e raccoglie i dati modificati dall'ora dell'ultima elaborazione.

    Screenshot delle opzioni per l'impostazione della latenza.

    Nota

    Se il supporto viene esteso all'integrazione dei dati di streaming (Hub eventi di Azure e origini dati Kafka), la latenza verrà impostata su Tempo reale per impostazione predefinita.

  21. Dopo aver completato la configurazione di CDC, selezionare Pubblica tutto per pubblicare le modifiche.

    Screenshot del pulsante Pubblica nella parte superiore dell'area di disegno.

    Nota

    Se non si pubblicano le modifiche, non sarà possibile avviare la risorsa CDC. Il pulsante Start nel passaggio successivo non sarà disponibile.

  22. Selezionare Avvia per avviare l'esecuzione dell'acquisizione dei dati delle modifiche.

    Screenshot del pulsante Start nella parte superiore dell'area di disegno.

Monitorare Change Data Capture

  1. Aprire il riquadro Monitoraggio usando uno dei metodi seguenti:

    • Selezionare Monitoraggio nel portale di Azure.

      Screenshot del pulsante Monitoraggio nella portale di Azure.

    • Selezionare l'icona di monitoraggio nella finestra di progettazione CDC.

      Screenshot dell'icona di monitoraggio nella parte superiore dell'area di disegno CDC.

  2. Selezionare Change Data Capture (anteprima) per visualizzare le risorse CDC.

    Screenshot del pulsante Change Data Capture.

    Il riquadro Change Data Capture mostra le informazioni origine, destinazione, stato e ultimo processo per change data capture.

    Screenshot di una panoramica della pagina di monitoraggio di Change Data Capture.

  3. Selezionare il nome di CDC per visualizzare altri dettagli. È possibile visualizzare il numero di modifiche (inserimento, aggiornamento o eliminazione) lette e scritte insieme ad altre informazioni di diagnostica.

    Screenshot del monitoraggio dettagliato di un'acquisizione dei dati delle modifiche selezionata.

    Se si configurano più mapping nell'acquisizione dei dati delle modifiche, ogni mapping viene visualizzato come colore diverso. Selezionare la barra per visualizzare dettagli specifici per ogni mapping o usare le informazioni di diagnostica nella parte inferiore del riquadro.

    Screenshot delle informazioni di monitoraggio dettagliate per un'acquisizione dei dati delle modifiche con più mapping da origine a destinazione.

    Screenshot di una suddivisione dettagliata di ogni mapping in un artefatto change data capture.