LakeFlow Connect
Important
LakeFlow Connect est en préversion publique contrôlée. Pour participer à la préversion, contactez votre équipe de compte Databricks.
Cet article fournit une vue d’ensemble de Databricks LakeFlow Connect, qui offre des connecteurs intégrés pour ingérer des données à partir d’applications et de bases de données d’entreprise.
Qu’est-ce que LakeFlow Connect ?
Databricks LakeFlow Connect offre des connecteurs intégrés pour l’ingestion à partir d’applications et de bases de données d’entreprise. Le pipeline d’ingestion résultant est gouverné par Unity Catalog, et est basé sur un calcul serverless et Delta Live Tables.
LakeFlow Connect tire parti de lectures et d’écritures incrémentielles efficaces pour rendre l’ingestion de données plus rapide, évolutive et plus économique, vos données restant à jour pour une consommation en aval.
Composants du connecteur SaaS
Un connecteur SaaS est modélisé par les composants suivants :
- Connexion : Un objet sécurisé de Unity Catalog qui stocke les détails d’authentification pour la base de données.
- Pipeline d’ingestion : Ingère les données mises en lots dans des tables Delta. Ce composant est modélisé en tant que pipeline DLT serverless.
Composants du connecteur de base de données
Un connecteur de base de données est modélisé par les composants suivants :
- Connexion : Un objet sécurisé de Unity Catalog qui stocke les détails d’authentification pour la base de données.
- Passerelle : Extrait les données de la base de données source et préserve l’intégrité des transactions pendant le transfert. Pour les bases de données cloud, la passerelle est configurée en tant que pipeline DLT avec un calcul classique.
- Stockage intermédiaire : Volume Unity Catalog dans lequel les données de la passerelle sont mises en lots avant d’être appliquées à une table Delta. Le compte de stockage de mise en lots est créé lorsque vous déployez la passerelle et existe dans le catalogue et le schéma que vous spécifiez.
- Pipeline d’ingestion : Ingère les données mises en lots dans des tables Delta. Ce composant est modélisé en tant que pipeline DLT serverless.
LakeFlow Connect et Lakehouse Federation et Delta Sharing
Lakehouse Federation vous permet d’interroger des sources de données externes sans déplacer vos données. Delta Sharing vous permet de partager de manière sécurisée des données en direct entre plusieurs plateformes, clouds et régions. Databricks recommande d’effectuer l’ingestion en utilisant LakeFlow Connect, car il se met à l’échelle pour prendre en charge les volumes de données élevés, les requêtes à faible latence et les limites des API de tiers. Cependant, vous pouvez souhaiter interroger vos données sans les déplacer.
Quand vous avez le choix entre LakeFlow Connect, Lakehouse Federation et Delta Sharing, choisissez Delta Sharing pour les scénarios suivants :
- Limitation de la duplication des données.
- Interrogation des données les plus récentes.
Choisissez Lakehouse Federation pour les scénarios suivants :
- Génération d’états ad hoc ou travail de preuve de concept sur vos pipelines ETL.
LakeFlow Connect et Chargeur automatique
LakeFlow Connect fournit des connecteurs intégrés qui vous permettent d’ingérer de manière incrémentielle des données à partir d’applications et de bases de données d’entreprise. Auto Loader (chargeur automatique) est un connecteur pour le stockage d’objets cloud qui vous permet d’ingérer de manière incrémentielle des fichiers à mesure qu’ils arrivent dans S3, ADLS et GCS. Il est compatible avec Structured Streaming et Delta Live Tables, mais ne s’intègre pas à LakeFlow Connect.
LakeFlow Connect peut-il réécrire dans des applications et des bases de données tierces ?
Non. Si cette fonctionnalité vous intéresse, contactez l’équipe de votre compte.
Combien coûte LakeFlow Connect ?
Pour l’instant, les clients ne sont facturés que pour l’utilisation de Delta Live Tables serverless nécessaire pour charger des données à partir de la source (en cas de connexion à une application d’entreprise, comme Salesforce) ou à partir du volume de mise en lots (en cas de connexion à une base de données, comme SQL Server). Le modèle tarifaire final de LakeFlow Connect peut inclure des frais supplémentaires et il sera annoncé ultérieurement.
Vous pouvez consultez la tarification de Delta Live Tables serverless dans notre page de tarification.