Configurer un pipeline Delta Live Tables

Article
10/31/2024

Cet article décrit la configuration de base des pipelines Delta Live Tables à l’aide de l’interface utilisateur de l’espace de travail.

Databricks recommande de développer de nouveaux pipelines à l’aide de serverless. Pour obtenir des instructions de configuration pour les pipelines serverless, consultez Configurer un pipeline Delta Live Tables serverless.

Les instructions de configuration de cet article utilisent le catalogue Unity. Pour obtenir des instructions sur la configuration des pipelines avec un metastore Hive hérité, consultez Utiliser des pipelines Delta Live Tables avec un metastore Hive hérité.

Remarque

L’interface utilisateur dispose d’une option permettant d’afficher et de modifier les paramètres dans JSON. Vous pouvez configurer la plupart des paramètres avec l’interface utilisateur ou une spécification JSON. Certaines options avancées sont disponibles uniquement à l’aide de la configuration JSON.

Les fichiers de configuration JSON sont également utiles lors du déploiement de pipelines dans de nouveaux environnements ou lors de l’utilisation de l’interface CLI ou de l’API REST.

Pour obtenir une référence complète sur les paramètres de configuration JSON de Delta Live Tables, consultez Configurations de pipeline Delta Live Tables.

Configurer un nouveau pipeline Delta Live Tables

Pour configurer un nouveau pipeline Delta Live Tables, procédez comme suit :

Cliquez sur Delta Live Tables dans la barre latérale.
Cliquez sur Créer un pipeline.
Fournissez un nom de pipeline unique.
Utilisez le sélecteur de fichiers pour configurer des blocs-notes et des fichiers d’espace de travail en tant que code source.
- Vous devez ajouter au moins une ressource de code source.
- Utilisez le bouton Ajouter du code source pour ajouter des ressources de code source supplémentaires.
Sélectionnez un catalogue pour publier des données.
Sélectionnez un schéma dans le catalogue. Toutes les tables de streaming et vues matérialisées définies dans le pipeline sont créées dans ce schéma.
Dans la section Calcul , cochez la case en regard d’Utiliser l’accélération photon. Pour plus d’informations sur la configuration du calcul, consultez les options de configuration de calcul.
Cliquez sur Créer.

Ces configurations recommandées créent un pipeline configuré pour s’exécuter en mode déclenché et utilisent le canal actuel . Cette configuration est recommandée pour de nombreux cas d’usage, notamment le développement et le test, et convient parfaitement aux charges de travail de production qui doivent s’exécuter selon une planification. Pour plus d’informations sur la planification des pipelines, consultez la tâche de pipeline Delta Live Tables pour les travaux.

Options de configuration de calcul

Databricks recommande toujours d’utiliser la mise à l’échelle automatique améliorée. Les valeurs par défaut pour d’autres configurations de calcul fonctionnent bien pour de nombreux pipelines.

Les pipelines serverless suppriment les options de configuration de calcul. Pour obtenir des instructions de configuration pour les pipelines serverless, consultez Configurer un pipeline Delta Live Tables serverless.

Utilisez les paramètres suivants pour personnaliser les configurations de calcul :

Les administrateurs d’espace de travail peuvent configurer une stratégie de cluster. Les stratégies de calcul permettent aux administrateurs de contrôler les options de calcul disponibles pour les utilisateurs. Voir Sélectionner une stratégie de cluster.
Vous pouvez éventuellement configurer le mode cluster pour qu’il s’exécute avec une taille fixe ou une mise à l’échelle automatique héritée. Consultez Optimiser l’utilisation du cluster des pipelines Delta Live Tables avec mise à l’échelle automatique améliorée.
Pour les charges de travail avec mise à l’échelle automatique activée, définissez min workers et Max workers pour définir des limites pour les comportements de mise à l’échelle. Consultez Configurer le calcul pour un pipeline Delta Live Tables.
Vous pouvez éventuellement désactiver l’accélération Photon. Consultez Qu’est-ce que Photon ?.
Utilisez des balises de cluster pour surveiller les coûts associés aux pipelines Delta Live Tables. Consultez Configurer des balises de cluster.
Configurez les types d’instances pour spécifier le type de machines virtuelles utilisées pour exécuter votre pipeline. Consultez Sélectionner des types d’instance pour exécuter un pipeline.
- Sélectionnez un type Worker optimisé pour les charges de travail configurées dans votre pipeline.
- Vous pouvez éventuellement sélectionner un type de pilote qui diffère de votre type worker. Cela peut être utile pour réduire les coûts dans les pipelines avec des types de travail volumineux et une faible utilisation du calcul du pilote ou pour choisir un type de pilote plus volumineux afin d’éviter les problèmes de mémoire insuffisante dans les charges de travail avec de nombreux petits travailleurs.

Autres considérations relatives à la configuration

Les options de configuration suivantes sont également disponibles pour les pipelines :

L’édition avancée du produit vous donne accès à toutes les fonctionnalités Delta Live Tables. Vous pouvez éventuellement exécuter des pipelines à l’aide des éditions de produits Pro ou Core . Voir Choisir une édition de produit.
Vous pouvez choisir d’utiliser le mode pipeline continu lors de l’exécution de pipelines en production. Consultez le mode de pipeline déclenché et continu.
Si votre espace de travail n’est pas configuré pour le catalogue Unity ou si votre charge de travail doit utiliser le metastore Hive hérité, consultez Utiliser des pipelines Delta Live Tables avec un metastore Hive hérité.
Ajoutez des notifications pour les mises à jour par e-mail en fonction des conditions de réussite ou d’échec. Consultez Ajouter des notifications par e-mail pour les événements de pipeline.
Utilisez le champ Configuration pour définir des paires clé-valeur pour le pipeline. Ces configurations servent à deux fins :
- Définissez des paramètres arbitraires que vous pouvez référencer dans votre code source. Consultez Utiliser des paramètres avec des pipelines Delta Live Tables.
- Configurez les paramètres de pipeline et les configurations Spark. Consultez informations de référence sur les propriétés Delta Live Tables.
Utilisez le canal de préversion pour tester votre pipeline par rapport aux modifications du runtime Delta Live Tables en attente et tester de nouvelles fonctionnalités.

Choisir une édition de produit

Sélectionnez l’édition de produit de Delta Live Tables avec les fonctionnalités les mieux adaptées à vos exigences de pipeline. Les éditions de produit suivantes sont disponibles :

Core pour exécuter des charges de travail d’ingestion de diffusion en continu. Sélectionnez l’édition Core si votre pipeline ne nécessite pas de fonctionnalités avancées telles que la capture des changements de données (CDC) ou les attentes de Delta Live Tables.
Pro pour exécuter les charges de travail de diffusion en continu et CDC. L’édition de produit Pro prend en charge toutes les fonctionnalités, ainsi que les charges de travail qui nécessitent la mise à jour des tables Core en fonction des modifications apportées aux données sources.
Advanced pour exécuter les charges de travail d’ingestion de diffusion en continu, les charges de travail CDC et les charges de travail qui nécessitent des attentes. L’édition Advanced de produit prend en charge les fonctionnalités des éditions et Pro inclut des contraintes de qualité des Core données avec les attentes delta Live Tables.

Vous pouvez sélectionner l’édition du produit lorsque vous créez ou modifiez un pipeline. Vous pouvez sélectionner une édition différente pour chaque pipeline. Consultez la page du produit Delta Live Tables.

Remarque : si votre pipeline inclut des fonctionnalités non prises en charge par l’édition de produit sélectionnée, comme des attentes, vous recevrez un message d’erreur avec la raison de l’erreur. Vous pouvez ensuite modifier le pipeline pour sélectionner l’édition appropriée.

Configurer le code source

Vous pouvez utiliser le sélecteur de fichiers dans l’interface utilisateur Delta Live Tables pour configurer le code source définissant votre pipeline. Le code source du pipeline est défini dans des notebooks Databricks ou dans des scripts SQL ou Python stockés dans des fichiers d’espace de travail. Lorsque vous créez ou modifiez votre pipeline, vous pouvez ajouter un ou plusieurs notebooks ou fichiers d’espace de travail ou une combinaison de notebooks et de fichiers d’espace de travail.

Étant donné que Delta Live Tables analyse automatiquement les dépendances de jeu de données pour construire le graphique de traitement de votre pipeline, vous pouvez ajouter des ressources de code source dans n’importe quel ordre.

Vous pouvez modifier le fichier JSON pour inclure le code source Delta Live Tables défini dans les scripts SQL et Python stockés dans les fichiers d’espace de travail. L’exemple suivant inclut des notebooks et des fichiers d’espace de travail :

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Gérer les dépendances externes pour les pipelines qui utilisent Python

Delta Live Tables prend en charge l’utilisation de dépendances externes dans vos pipelines, telles que les packages et bibliothèques Python. Pour en savoir plus sur les options et les recommandations relatives à l’utilisation des dépendances, consultez Gérer les dépendances Python pour les pipelines Delta Live Tables.

Utiliser des modules Python stockés dans votre espace de travail Azure Databricks

Outre l’implémentation de votre code Python dans les notebooks Databricks, vous pouvez utiliser des dossiers Git Databricks ou des fichiers d’espace de travail pour stocker votre code en tant que modules Python. Le stockage de votre code comme modules Python est particulièrement utile lorsque vous disposez de fonctionnalités courantes que vous souhaitez utiliser dans plusieurs pipelines ou plusieurs notebooks dans le même pipeline. Pour savoir comment utiliser des modules Python avec vos pipelines, consultez Importer des modules Python à partir de dossiers Git ou de fichiers d’espace de travail.

Partager via