Descrivere l'architettura a medaglione
I data lakehouse in Fabric sono basati sul formato Delta Lake, che supporta in modo nativo le transazioni ACID (Atomicity, Consistency, Isolation, Durability). All'interno di questo framework, l'architettura a medaglione è un modello di progettazione dei dati consigliato usato per organizzare i dati in un lakehouse in modo logico. L'obiettivo è migliorare la qualità dei dati nel passaggio attraverso livelli diversi. L'architettura prevede in genere tre livelli: bronzo (dati non elaborati), argento (dati convalidati) e oro (dati arricchiti), ognuno dei quali rappresenta livelli di qualità dei dati più elevati. Questa architettura è anche nota come "multi hop", per indicare che i dati possono spostarsi tra vari livelli in base alle esigenze.
Questa architettura assicura che i dati siano affidabili e coerenti man mano che vengono sottoposti a vari controlli e modifiche. Garantisce anche che i dati vengano archiviati in modo sicuro per semplificare e velocizzare l'analisi.
L'architettura a medaglione integra altri metodi dell'organizzazione dei dati, anziché sostituirli. È possibile considerare l'architettura a medaglione come il framework per la pulizia dei dati, anziché un'architettura o un modello di dati. Garantisce compatibilità e flessibilità, in modo che le aziende possano sfruttarne i vantaggi insieme ai modelli di dati esistenti, consentendo di personalizzare le soluzioni per i dati e tutelare le competenze esistenti, pur rimanendo adattabili in un panorama dei dati in continua evoluzione.
Informazioni sul formato dell'architettura a medaglione
Livello bronzo
Il livello bronzo, o dei dati non elaborati, dell'architettura a medaglione è il primo livello del lakehouse. Si tratta della zona di destinazione per tutti i dati, sia strutturati, che semistrutturati o non strutturati. I dati vengono archiviati nel formato originale e non vengono apportate modifiche.
Livello argento
Il livello argento, o dei dati convalidati, è il secondo livello del lakehouse. Si tratta della posizione in cui verranno convalidati e perfezionati i dati. Le attività tipiche nel livello argento includono la combinazione e l'unione dei dati e l'applicazione di regole di convalida dei dati, ad esempio la rimozione di valori Null e la deduplicazione. Il livello argento può essere considerato come un repository centrale in un'organizzazione o in un team, in cui i dati vengono archiviati in un formato coerente e sono accessibili per più team. Nel livello argento i dati vengono puliti quanto basta perché tutto sia in un'unica posizione e pronto per essere perfezionato e modellato nel livello oro.
Livello oro
Il livello oro, o dei dati arricchiti, è il terzo livello del lakehouse. Nel livello oro, i dati vengono ulteriormente perfezionati per allinearsi a specifiche esigenze aziendali e di analisi. Ciò può comportare l'aggregazione dei dati con una particolare granularità, ad esempio giornaliera o oraria, o l'arricchimento con informazioni esterne. Quando i dati raggiungono la fase oro, diventano pronti per l'uso da parte dei team downstream, tra cui analisi, data science o MLOps.
Personalizzare l'architettura a medaglione
A seconda del caso d'uso specifico dell'organizzazione, potrebbe essere necessario definire più livelli. Ad esempio, potrebbe essere necessario un livello "dati non elaborati" aggiuntivo per i dati di destinazione in un formato specifico prima che vengano trasformati nel livello bronzo. Oppure si potrebbe definire livello "platino" per i dati che sono stati ulteriormente perfezionati e arricchiti per un caso d'uso specifico. Indipendentemente dai nomi e dal numero di livelli, l'architettura a medaglione è flessibile e può essere personalizzata per soddisfare i requisiti specifici dell'organizzazione.
Spostare i dati tra livelli in Fabric
Lo spostamento dei dati tra livelli dell'architettura a medaglione consente di perfezionare, organizzare e preparare i dati per le attività downstream. All'interno del lakehouse di Fabric è disponibile più di un modo per spostare i dati tra i livelli, in modo da poter scegliere il metodo ottimale per ogni team.
Quando si decide come spostare e trasformare i dati tra i livelli, è necessario considerare alcuni aspetti.
- Quantità di dati
- Complessità delle trasformazioni che è necessario eseguire
- Frequenza di spostamento dei dati tra i livelli
- Strumenti con i quali si ha maggiore familiarità
Conoscere la differenza tra trasformazione dei dati e orchestrazione dei dati consente di scegliere gli strumenti appropriati per il processo all'interno di Fabric.
La trasformazione dei dati comporta la modifica della struttura o del contenuto dei dati per soddisfare requisiti specifici. Gli strumenti per la trasformazione dei dati in Fabric includono Flussi di dati (Gen2) e notebook. I flussi di dati sono un'ottima opzione per modelli semantici più piccoli e trasformazioni semplici. I notebook sono un'opzione migliore per modelli semantici più grandi e trasformazioni più complesse. I notebook consentono anche di salvare i dati trasformati come tabella Delta gestita nel lakehouse, pronti per la creazione di report.
Con orchestrazione dei dati si intende il coordinamento e la gestione di più processi correlati ai dati, assicurandosi che interagiscano per ottenere un risultato desiderato. Lo strumento principale per l'orchestrazione dei dati in Fabric è costituito dalle pipeline. Una pipeline è una serie di passaggi che spostano i dati da una posizione a un'altra, in questo caso, da un livello dell'architettura a medaglione al successivo. Le pipeline possono essere automatizzate per l'esecuzione in base a una pianificazione o attivate da un evento.