Esplorare lakehouse di Microsoft Fabric

Completato

Una lakehouse si presenta come un database e si basa su un data lake usando tabelle di formato Delta. Le lakehouse combinano le funzionalità analitiche basate su SQL di un data warehouse relazionale e la flessibilità e la scalabilità di un data lake. Le lakehouse archiviano tutti i formati di dati e possono essere usate con vari strumenti di analisi e linguaggi di programmazione. Come soluzioni basate sul cloud, le lakehouse possono essere ridimensionate automaticamente e offrono disponibilità elevata e ripristino di emergenza.

Diagramma di una lakehouse, che mostra la struttura a cartelle di un data lake e le funzionalità relazionali di un data warehouse.

Alcuni dei vantaggi di una lakehouse includono:

  • La lakehouse usa motori Spark e SQL per elaborare dati su larga scala e supportare l'apprendimento automatico o l'analisi predittiva della modellazione.
  • I dati di una lakehouse sono organizzati in un formato di lettura a schema, il che significa che è necessario definire lo schema in base alle esigenze anziché disporre di uno schema predefinito.
  • Le lakehouse supportano le transazioni ACID (Atomicity, Consistency, Isolation, Durability) tramite tabelle in formato Delta Lake per coerenza e integrità dei dati.
  • Le lakehouse rappresentano un percorso unico per data engineer, data scientist e data anayst per accedere ai dati e usarli.

Le lakehouse sono un'ottima opzione se si vuole una soluzione di analisi scalabile che mantenga la coerenza dei dati. È importante valutare i requisiti specifici per determinare quale soluzione è la più adatta.

Caricare i dati in un lakehouse

I lakehouse di Fabric sono un elemento centrale per la soluzione di analisi. È possibile seguire il processo ETL (Extract, Transform, Load) per inserire e trasformare i dati prima di caricarli nel lakehouse.

È possibile inserire dati in molti formati comuni da varie origini, tra cui file locali, database o API. È inoltre possibile creare dei collegamenti Fabric ai dati presenti in origini esterne, ad esempio Azure Data Lake Store Gen2 o OneLake. Usare Lakehouse Explorer per esplorare file, cartelle, collegamenti e tabelle e visualizzarne il contenuto all'interno della piattaforma Fabric.

I dati inseriti possono essere trasformati e quindi caricati usando Apache Spark con notebook o Dataflows Gen2. Usare le pipeline di Data Factory per orchestrare le diverse attività ETL e trasferire i dati preparati nel lakehouse.

Nota

I flussi di dati Gen2 si basano su Power Query, uno strumento familiare agli analisti di dati che usano Excel o Power BI e che fornisce una rappresentazione visiva delle trasformazioni come alternativa alla programmazione tradizionale.

È possibile usare il lakehouse per molti motivi, tra cui:

  • Analizzare con SQL.
  • Eseguire il training di modelli di Machine Learning.
  • Eseguire analisi sui dati in tempo reale.
  • Sviluppare report in Power BI.

Proteggere un lakehouse

L'accesso a Lakehouse viene gestito tramite l'area di lavoro o la condivisione a livello di elemento. I ruoli delle aree di lavoro devono essere usati per i collaboratori poiché garantiscono l'accesso a tutti gli elementi all'interno dell'area di lavoro. La condivisione a livello di elemento è più adatta a concedere l'accesso per esigenze di sola lettura, ad esempio analisi o sviluppo di report di Power BI.

I lakehouse di Fabric supportano anche funzionalità di governance dei dati, incluse le etichette di riservatezza, e possono essere estesi tramite Microsoft Purview con il tenant di Fabric.

Nota

Per altre informazioni, vedere la documentazione Sicurezza in Microsoft Fabric.