LakeFlow Connect
Importante
LakeFlow Connect è in anteprima pubblica controllata. Per partecipare all’anteprima, contattare il team dell’account Databricks.
Questo articolo offre una panoramica di Databricks LakeFlow Connect, che offre connettori predefiniti per l'inserimento di dati da applicazioni e database aziendali.
Che cos'è LakeFlow Connect?
Databricks LakeFlow Connect offre connettori predefiniti per l'inserimento da applicazioni e database aziendali. La pipeline di inserimento risultante è governata dal catalogo unity ed è basata su calcolo serverless e tabelle live Delta.
LakeFlow Connect sfrutta letture e scritture incrementali efficienti per rendere l’inserimento dei dati più veloce, scalabile e più conveniente, mentre i dati rimangono aggiornati per l’utilizzo downstream.
Componenti del connettore SaaS
Un connettore SaaS è modellato dai componenti seguenti:
- Connessione: oggetto a protezione diretta del catalogo Unity che archivia i dettagli di autenticazione per il database.
- Pipeline di inserimento: inserisce i dati di staging in tabelle Delta. Questo componente viene modellato come pipeline DLT serverless.
Componenti del connettore di database
Un connettore di database è modellato dai componenti seguenti:
- Connessione: oggetto a protezione diretta del catalogo Unity che archivia i dettagli di autenticazione per il database.
- Gateway: estrae i dati dal database di origine e mantiene l'integrità delle transazioni durante il trasferimento. Per i database basati sul cloud, il gateway viene configurato come pipeline DLT con calcolo classico.
- Archiviazione di staging: volume del catalogo Unity in cui i dati del gateway vengono gestiti in staging prima di essere applicati a una tabella Delta. L'account di archiviazione di staging viene creato quando si distribuisce il gateway ed esiste all'interno del catalogo e dello schema specificato.
- Pipeline di inserimento: inserisce i dati di staging in tabelle Delta. Questo componente viene modellato come pipeline DLT serverless.
LakeFlow Connect vs. Lakehouse Federation vs. Delta Sharing
Lakehouse Federation consente di eseguire query su origini dati esterne senza spostare i dati. La condivisione differenziale consente di condividere in modo sicuro i dati live tra piattaforme, cloud e aree. Databricks consiglia l'inserimento usando LakeFlow Connect perché ridimensiona per supportare volumi di dati elevati, query a bassa latenza e limiti di API di terze parti. Tuttavia, è possibile eseguire query sui dati senza spostarli.
Quando si ha una scelta tra LakeFlow Connect, Lakehouse Federation e Delta Sharing, scegliere Condivisione delta per gli scenari seguenti:
- Limitazione della duplicazione dei dati.
- Esecuzione di query sui dati più aggiornati possibili.
Scegliere Lakehouse Federation per gli scenari seguenti:
- La creazione di report ad hoc o il modello di verifica funzionano sulle pipeline ETL.
LakeFlow Connect e Auto Loader
LakeFlow Connect offre connettori predefiniti che consentono di inserire dati in modo incrementale da applicazioni e database aziendali. Il caricatore automatico è un connettore per l'archiviazione di oggetti cloud che consente di inserire in modo incrementale i file man mano che arrivano in S3, ADLS e GCS. È compatibile con Structured Streaming e Delta Live Tables, ma non si integra con LakeFlow Connect.
LakeFlow Connect può eseguire il writeback in app e database di terze parti?
No. Se si è interessati a questa funzionalità, contattare il team dell'account.
Qual è il costo per LakeFlow Connect?
Per il momento, i clienti vengono fatturati solo per l'utilizzo delle tabelle live Delta serverless necessarie per caricare i dati dall'origine (se ci si connette a un'applicazione aziendale, ad esempio Salesforce) o dal volume di staging (se ci si connette a un database, ad esempio SQL Server). Il modello di prezzi finale per Lakeflow Connect potrebbe includere addebiti aggiuntivi e verrà annunciato in futuro.
I prezzi delle tabelle live Delta serverless sono visibili nella pagina dei prezzi.