Partager via


Utiliser des pipelines Delta Live Tables avec un metastore Hive hérité

Cet article détaille les configurations et les mises en garde spécifiques aux pipelines Delta Live Tables configurés pour publier des données dans le metastore Hive hérité. Databricks recommande d’utiliser Unity Catalog pour tous les nouveaux pipelines. Consultez Utiliser Unity Catalog avec vos pipelines Delta Live Tables.

Publier des jeux de données de pipeline sur le metastore Hive hérité

Bien que facultatif, vous devez spécifier une cible pour publier les tables créées par votre pipeline chaque fois que vous dépassez le développement et le test d’un nouveau pipeline. La publication d’un pipeline sur une cible rend les jeux de données disponibles pour l’interrogation dans d’autres emplacements de votre environnement Azure Databricks.

Vous pouvez faire en sorte que les données de sortie de votre pipeline soient découvrables et interrogeables en publiant les jeux de données sur le metastore Hive. Pour publier les jeux de données sur le metastore, entrez un nom de schéma dans le champ Cible lorsque vous créez un pipeline. Vous pouvez également ajouter une base de données cible à un pipeline existant.

Toutes les tables et vues créées dans Delta Live Tables sont locales au pipeline par défaut. Vous devez publier les tables sur un schéma cible pour interroger ou utiliser les jeux de données Delta Live Tables en dehors du pipeline dans lequel ils sont déclarés.

Pour publier des tables à partir de vos pipelines dans Unity Catalog, veuillez consulter Utilisation d’Unity Catalog avec vos pipelines Delta Live Tables

Comment publier des jeux de données Delta Live Tables dans le metastore Hive hérité

Vous pouvez déclarer un schéma cible pour toutes les tables de votre pipeline Delta Live Tables en utilisant le champ Schéma cible dans les interfaces utilisateur Paramètres du pipeline et Créer un pipeline.

Vous pouvez également spécifier un schéma dans une configuration JSON en définissant la valeur target.

Vous devez exécuter une mise à jour pour que le pipeline publie les résultats sur le schéma cible.

Vous pouvez utiliser cette fonctionnalité avec plusieurs configurations d’environnement pour publier sur différents schémas en fonction de l’environnement. Par exemple, vous pouvez publier des données de développement sur un schéma dev et des données de production sur un schéma prod.

Comment interroger des tables de diffusion en continu et des vues matérialisées dans le metastore Hive hérité

Une fois la mise à jour terminée, vous pouvez afficher le schéma et les tables, interroger les données ou utiliser les données dans les applications en aval.

Une fois publiées, les tables Delta Live Tables peuvent être interrogées à partir de n’importe quel environnement ayant accès au schéma cible. Cela inclut Databricks SQL, les notebooks et d’autres pipelines Delta Live Tables.

Important

Lorsque vous créez une configuration target, seules les tables et les métadonnées associées sont publiées. Les vues ne sont pas publiées dans le metastore.

Spécifier un emplacement de stockage

Vous pouvez spécifier un emplacement de stockage pour un pipeline qui publie dans le metastore Hive. La principale motivation pour spécifier un emplacement est de contrôler l’emplacement de stockage de l’objet pour les données écrites par votre pipeline.

Étant donné que toutes les tables, données, points de contrôle et métadonnées des pipelines Delta Live Tables sont entièrement gérés par Delta Live Tables, la plupart des interactions avec les jeux de données Delta Live Tables se produisent via des tables inscrites dans le metastore Hive ou Unity Catalog.

Configuration du stockage cloud

Pour accéder au stockage Azure, vous devez configurer les paramètres requis, y compris les jetons d’accès, à l’aide des paramètres spark.conf de vos configurations de cluster. Pour obtenir un exemple de configuration de l’accès à un compte de stockage Azure Data Lake Storage Gen2 (ADLS Gen2), consultez Accéder en toute sécurité aux informations d’identification de stockage en utilisant des secrets dans un pipeline.