Descrivere i modelli di integrazione dei dati
Microsoft Azure offre un'ampia gamma di servizi di piattaforma dati per eseguire diversi tipi di analisi, che si tratti di una soluzione di analisi descrittiva in un data warehouse, tramite l'analisi predittiva all'interno di HDInsight, Azure Databricks o Machine Learning Services. È necessario che un servizio gestisca l'aspetto importante dell'integrazione dei dati.
L'integrazione dei dati prevede prima di tutto la raccolta di dati da una o più origini. Può generalmente anche includere un processo in cui i dati possono essere puliti e trasformati o eventualmente integrati con dati aggiuntivi e preparati. I dati amalgamati vengono infine archiviati in un servizio della piattaforma dati che gestisce il tipo di analisi che si vuole eseguire. Questo processo può essere automatizzato da Azure Data Factory in un modello noto come estrazione, trasformazione e caricamento (Extract, Transform and Load, ETL).
Estrazione
Durante il processo di estrazione, i data engineer definiscono i dati e la relativa origine:
Definire l'origine dati: identificare i dettagli dell'origine, ad esempio il gruppo di risorse, la sottoscrizione e le informazioni relative all'identità come una chiave o un segreto.
Definire i dati: identificare i dati da estrarre. Definire i dati con una query di database, un set di file o un nome di Archiviazione BLOB di Azure per l'archiviazione BLOB.
Trasformazione
- Definire la trasformazione dei dati: le operazioni di trasformazione dei dati possono includere la suddivisione, la combinazione, la derivazione, l'aggiunta, la rimozione o la trasformazione tramite Pivot delle colonne. Eseguire il mapping dei campi tra l'origine dati e la destinazione dei dati. Potrebbe anche essere necessario aggregare o unire i dati.
Load
Definire la destinazione: durante un caricamento, molte delle destinazioni di Azure possono accettare dati formattati come JSON (JavaScript Object Notation), file o BLOB. Potrebbe essere necessario scrivere codice per interagire con le API delle applicazioni.
Azure Data Factory offre il supporto predefinito per Funzioni di Azure. È inoltre disponibile il supporto per molti linguaggi di programmazione, tra cui Node.js, .NET, Python e Java. Anche se XML (Extensible Markup Language) era comune in passato, la maggior parte dei sistemi è passata a JSON per la maggiore flessibilità che offre come tipo di dati semistrutturati.
Avviare il processo: testare il processo ETL in un ambiente di sviluppo o test. Eseguire quindi la migrazione del processo in un ambiente di produzione per caricare il sistema di produzione.
Monitorare il processo: le operazioni ETL possono coinvolgere numerosi processi complessi. La configurazione di un sistema di monitoraggio proattivo e reattivo può offrire informazioni utili in caso di problemi. Configurare la registrazione in base alla tecnologia da cui verrà usata.
Strumenti ETL
L'ingegnere dei dati ha a disposizione diversi strumenti per l'ETL. Azure Data Factory offre quasi 100 connettori aziendali e risorse affidabili per gli utenti senza codice e per quelli basati su codice per soddisfare le esigenze di spostamento e trasformazione dei dati.
Evoluzione dai processi ETL
Azure ha aperto le porte a tecnologie in grado di gestire dati non strutturati senza alcun limite. Questo cambiamento si è riflesso sul paradigma per il caricamento e la trasformazione dei dati, che è passato da ETL a ELT, ovvero estrazione, caricamento e trasformazione.
Il vantaggio di un processo ELT è la possibilità di archiviare i dati nel formato originale, sia esso JSON, XML, PDF o immagini. In un processo ELT la struttura dei dati viene definita durante la fase di trasformazione, pertanto è possibile usare i dati di origine in più sistemi a valle.
In un processo ELT i dati vengono estratti e caricati nel relativo formato nativo. Questa modifica riduce il tempo necessario per caricare i dati in un sistema di destinazione. La modifica limita anche i conflitti di risorse per le origini dati.
I passaggi per il processo ELT sono gli stessi del processo ETL. Seguono semplicemente un ordine diverso.
Un altro processo simile a ELT è noto come ELTL, ovvero estrazione, caricamento, trasformazione e caricamento. La differenza con ELTL è la presenza del passaggio di caricamento finale in un sistema di destinazione.
Esistono due tipi comuni di modelli di integrazione dei dati che possono essere supportati da Azure Data Factory.
Carichi di lavoro di data warehouse moderni:
Un data warehouse moderno è un archivio dati centralizzato che offre servizi di analisi e di supporto decisionale descrittivi nell'intera azienda usando origini dati strutturate, non strutturate o in streaming. Il data warehouse riceve periodicamente flussi di dati da più sistemi transazionali, database relazionali e altre origini dati. I dati archiviati vengono usati per la creazione di report cronologici e di analisi delle tendenze. Il data warehouse svolge la funzione di repository centrale per numerose aree di interesse e contiene l'unica fonte di verità (SSOT).
Azure Data Factory viene in genere usato per automatizzare il processo di estrazione, trasformazione e caricamento dei dati tramite un processo batch su origini dati strutturate e non strutturate.
Carichi di lavoro analitici avanzati
È possibile eseguire analisi avanzate sotto forma di analisi predittiva o preemptive con una serie di piattaforme dati di Azure. Azure Data Factory fornisce l'integrazione dai sistemi di origine in un archivio Data Lake e può avviare risorse di calcolo, ad esempio Azure Databricks o HDInsight, per usare i dati ed eseguire attività analitiche avanzate