Ingérer des données à partir du stockage d’objets cloud
Cet article répertorie les façons dont vous pouvez configurer l’ingestion incrémentielle à partir du stockage d’objets cloud.
Ajouter une interface utilisateur de données
Pour découvrir comment utiliser l’IU d’ajout de données pour créer une table managée à partir de données dans un stockage d’objets cloud, consultez Charger des données à l’aide d’un emplacement externe Unity Catalog.
Notebook ou éditeur SQL
Cette section décrit les options de configuration de l’ingestion incrémentielle à partir du stockage d’objets cloud avec un notebook ou éditeur SQL Databricks.
Chargeur automatique
Auto Loader traite de façon incrémentielle et efficace les nouveaux fichiers de données à mesure qu’ils arrivent dans le stockage cloud, sans configuration supplémentaire. Auto Loader fournit une source de flux structuré appelée cloudFiles
. À partir du chemin d’accès du répertoire d’entrée sur le stockage de fichiers dans le cloud, la source cloudFiles
traite automatiquement les nouveaux fichiers à mesure qu’ils arrivent, avec la possibilité de traiter également les fichiers existants dans ce répertoire.
COPY INTO
Avec COPY INTO, les utilisateurs SQL peuvent ingérer des données, de manière incrémentielle et idempotente, à partir d’un stockage d’objets cloud dans des tables Delta. Vous pouvez utiliser COPY INTO
dans Databricks SQL, les notebooks et les travaux Databricks.
Quand utiliser COPY INTO et quand utiliser Auto Loader ?
Voici quelques éléments à prendre en compte lors du choix entre Auto Loader et COPY INTO
:
Si vous comptez ingérer plusieurs milliers de fichiers avec le temps, vous pouvez utiliser
COPY INTO
. Si vous attendez des millions de fichiers ou plus au fil du temps, utilisez Auto Loader. Auto Loader nécessite un nombre total d’opérations moindre pour découvrir des fichiers par rapport àCOPY INTO
, et peut fractionner le traitement en plusieurs lots. En d’autres termes, Auto Loader est moins coûteux et plus efficace à grande échelle.Si le schéma de vos données est appelé à évoluer fréquemment, Auto Loader fournit de meilleurs types de données primitifs pour l’inférence et l’évolution de schéma. Pour plus d’informations, consultez Configurer l’inférence et l’évolution de schéma dans Auto Loader.
Le chargement d’un sous-ensemble de fichiers rechargés peut être un peu plus facile à gérer avec
COPY INTO
. Avec Auto Loader, il est plus difficile de retraiter un sous-ensemble donné de fichiers. Toutefois, vous pouvez utiliserCOPY INTO
pour recharger le sous-ensemble de fichiers alors qu’un flux Auto Loader est exécuté simultanément.Pour une expérience d’ingestion de fichiers encore plus évolutive et robuste, Auto Loader permet aux utilisateurs SQL de tirer parti des tables de streaming. Consultez Charger des données à l’aide de tables de streaming dans Databricks SQL.
Pour obtenir une brève présentation et une démonstration d’Auto Loader, ainsi que de COPY INTO
, regardez la vidéo YouTube suivante (2 minutes).
Automatiser les opérations ETL avec Delta Live Tables et Auto Loader
Vous pouvez simplifier le déploiement d’une infrastructure d’ingestion incrémentielle et scalable avec Auto Loader et Delta Live Tables. Delta Live Tables n’utilise pas l’exécution interactive standard présente dans les notebooks, mais met l’accent sur le déploiement d’une infrastructure prête pour la production.
Tutoriel : Exécutez votre première charge de travail ETL sur Databricks
Réception de données à l’aide de tables de diffusion en continu (notebook Python/SQL)
Charger des données à l'aide de tables de streaming dans Databricks SQL
Outils d’ingestion tiers
Databricks valide les intégrations de partenaires technologiques qui vous permettent d’ingérer à partir de diverses sources, notamment le stockage d’objets cloud. Ces intégrations permettent une ingestion des données évolutive et nécessitant peu de code à partir d’une variété de sources dans Azure Databricks. Consultez Partenaires technologiques. Certains partenaires technologiques sont présentés dans Présentation de Databricks Partner Connect, qui fournit une interface utilisateur qui simplifie la connexion d’outils tiers à vos données lakehouse.