Configurer et modifier des projets Databricks
Cet article se concentre sur les instructions relatives à la création, à la configuration et à la modification de projets à l’aide de l’IU de l’espace de travail Workflows. Azure Databricks dispose d’autres points d’entrée et outils de configuration, notamment les suivants :
- Pour en savoir plus sur l’utilisation de l’interface CLI Databricks pour créer et exécuter des tâches, consultez l’article Qu’est-ce que la CLI Databricks ?.
- Pour en savoir plus sur l’utilisation de l’API Travaux pour créer et exécuter des travaux, consultez Travaux dans la référence de l’API REST.
- Pour savoir comment exécuter et planifier des travaux directement dans un notebook Databricks, consultez Créer et gérer des travaux de notebook planifiés.
Conseil
Pour afficher un travail en tant que YAML, cliquez sur le menu kebab à gauche de Exécuter maintenant pour le travail, puis cliquez sur Basculer vers la version de code (YAML).
Créer un projet
Cette section décrit la configuration minimale nécessaire pour créer un projet afin de planifier une tâche de notebook avec l’IU de l’espace de travail.
Les projets incluent une ou plusieurs tâches. Vous créez un projet en configurant la première tâche pour ce projet.
Remarque
Chaque type de tâche dispose d’options de configuration dynamiques dans l’IU de l’espace de travail. Consultez Configurer et modifier des tâches Databricks.
- Dans la barre latérale, cliquez sur Workflows, puis sur .
- Entrez un nom de tâche.
- Sélectionnez un Notebook pour le champ Chemin d’accès.
- Cliquez sur Create task.
Si votre espace de travail n’est pas activé pour le calcul serverless des projets, vous devez sélectionner une option Capacité de calcul. Databricks recommande de toujours utiliser Jobs Compute lors de la configuration des tâches.
Un nouveau projet apparaît dans la liste des projets de l’espace de travail avec le nom New Job <date> <time>
par défaut.
Sélectionner un projet à modifier dans l’espace de travail
Pour modifier un projet existant avec l’IU de l’espace de travail, procédez comme suit :
- Cliquez sur Workflows dans la barre latérale.
- Dans la colonne Nom, cliquez sur le nom d’un travail.
Utilisez l’IU des projets pour effectuer les opérations suivantes :
- Modifier les paramètres de projet
- Renommer, cloner ou supprimer un projet
- Ajouter de nouvelles tâches à un projet existant
- Modifier les paramètres de la tâche
Remarque
Vous pouvez également consulter les définitions JSON à utiliser avec les points de terminaison obtenir, créer, et réinitialiser l’API REST.
Modifier les paramètres de projet
Le panneau latéral affiche Détails du projet. Vous pouvez modifier le déclencheur de projet, la configuration de calcul, les notifications, le nombre maximum d'exécutions simultanées, configurer des seuils de durée et ajouter ou modifier des balises. Vous pouvez également modifier les autorisations du travail si le contrôle d’accès aux travaux est activé.
Ajouter des paramètres pour toutes les tâches
Les paramètres configurés au niveau du projet sont transférés aux tâches du projet qui acceptent des paramètres clé-valeur, y compris les fichiers roue Python configurés pour accepter des arguments de type mot clé. Consultez Définir les paramètres de projets.
Ajouter des balises à un travail
Pour ajouter des étiquettes ou des attributs clé-valeur à votre projet, vous pouvez ajouter des étiquettes lorsque vous modifiez le projet. Vous pouvez utiliser des balises pour filtrer les projets dans la liste des projets. Par exemple, vous pouvez utiliser une balise department
pour filtrer tous les projets appartenant à une section spécifique.
Remarque
Les étiquettes de travail n’étant pas conçues pour stocker des informations sensibles telles que des informations d’identification personnelle ou des mots de passe, Databricks recommande de limiter l’utilisation des étiquettes aux valeurs non sensibles.
Les étiquettes se propagent également aux clusters de travaux créés lors de l’exécution d’un travail, ce qui vous permet d’utiliser des étiquettes avec votre monitoring de cluster existant.
Cliquez sur + Balise dans le panneau latéral Détails du projet pour ajouter ou modifier des balises. Vous pouvez ajouter la balise sous forme d'étiquette ou de paire clé-valeur. Pour ajouter un libellé, entrez-le dans le champ Clé et laissez le champ Valeur vide.
Renommer, cloner ou supprimer un projet
Pour renommer un projet, allez dans l'IU des projets et cliquez sur le nom du projet.
Vous pouvez créer rapidement un nouveau travail en clonant un travail existant. Le clonage d’un projet crée une copie identique du projet, à l’exception de l’ID tâche. Pour cloner un projet, procédez comme suit :
- Accédez à l’IU des projets pour le projet.
- Cliquez sur près du bouton Run now.
- Sélectionnez Cloner le projet dans le menu déroulant.
- Entrez un nom pour le projet cloné.
- Cliquez sur Cloner.
Supprimer une tâche
Pour supprimer un projet, accédez à la page du projet, cliquez sur près du nom du projet et sélectionnez Supprimer le projet dans le menu déroulant.
Utiliser Git avec des projets
Si votre projet contient des tâches qui prennent en charge l’utilisation d'un fournisseur Git distant, l’IU des projets contient un champ Git et la possibilité d’ajouter ou de modifier les paramètres Git.
Vous pouvez configurer les types de tâches suivants pour utiliser un référentiel Git distant :
- Blocs-notes
- Scripts Python
- Fichiers SQL
- dbt
Toutes les tâches d’un projet doivent faire référence au même commit dans le dépôt distant. Vous ne devez spécifier qu’un des éléments suivants pour un projet qui utilise un dépôt distant :
- branche : nom de la branche, par exemple
main
. - balise : nom de la balise, par exemple
release-1.0.0
. - commit : code de hachage d’un commit spécifique, par exemple
e0056d01
.
Lorsqu’un projet est en cours d’exécution, Databricks prend un commit instantané du dépôt distant afin de s’assurer que l’ensemble du projet s’exécute avec la même version du code.
Lorsque vous consultez l’historique des exécutions d’une tâche qui exécute du code stocké dans un dépôt Git distant, le panneau Détails de l’exécution de la tâche inclut les détails Git, y compris le commit SHA associé à l’exécution. Consultez Afficher l’historique des exécutions des tâches.
Remarque
Les tâches configurées pour utiliser un dépôt Git distant ne peuvent pas écrire dans les fichiers d’espace de travail. Elles doivent écrire des données temporaires dans le stockage éphémère du pilote et les données persistantes dans un volume ou une table.
Databricks recommande de créer des projets référençant des chemins d’accès d’espace de travail dans les dossiers Git uniquement pour les itérations rapides et les tests pendant le développement. Databricks recommande de reconfigurer les projets pour référencer un dépôt Git distant lorsque vous passez en simulation et en production. En savoir plus sur le code source géré par version dans un projet Databricks.
Configurer un fournisseur Git
L’IU des projets comporte une boîte de dialogue permettant de configurer un dépôt Git distant. Cette boîte de dialogue est accessible à partir du panneau Détails du projet sous le titre Git ou dans n’importe quelle tâche configurée pour utiliser un fournisseur Git.
Les options affichées pour accéder à la boîte de dialogue varient en fonction du type de tâche et du fait qu’une référence git a déjà été configurée ou non pour le projet. Les boutons permettant de lancer la boîte de dialogue incluent Ajouter des paramètres Git, Modifier ou Ajouter une référence Git.
Dans la boîte de dialogue Informations Git (simplement étiquetée Git si l’accès se fait par le panneau Détails du projet), saisissez les informations suivantes :
- l’URL du référentiel Git.
- Sélectionnez votre fournisseur Git dans la liste déroulante.
- Dans le champ Référence Git, saisissez l’identifiant d’une branche, d’une balise ou d’un commit correspondant à la version du code source que vous souhaitez exécuter.
- Sélectionnez la branche, la balise ou le commit dans la liste déroulante.
Remarque
La boîte de dialogue peut vous demander ce qui suit : Il manque des identifiants Git pour ce compte. Veuillez ajouter ces identifiants. Vous devez configurer un dépôt Git distant avant de l’utiliser comme référence. Consultez Configurer les dossiers Git (Repos) Databricks.
Configurer une heure d'achèvement prévue ou un délai d'expiration pour une tâche
Vous pouvez configurer des seuils de durée facultatifs pour un projet, y compris une durée d’achèvement prévue et maximale. Pour configurer les seuils de durée, cliquez sur Définir des seuils de durée sous Seuils de durée dans le panneau Détails du projet.
Saisissez une durée dans le champ Avertissement pour configurer la durée d’achèvement prévue du projet. Si le projet dépasse ce seuil, un événement est déclenché. Vous pouvez utiliser cet événement pour avertir lorsqu’un projet s’exécute lentement. Voir Configurer les notifications pour les tâches à exécution lente ou en retard.
Pour configurer un délai d'exécution maximum pour une tâche, entrez la durée maximale dans le champ Délai d'expiration. Si le travail n’est pas terminé dans ce délai, Azure Databricks définit son état sur « Expiré ».
Vous pouvez éventuellement spécifier des seuils de durée pour les tâches. Consultez Configurer un délai d’achèvement ou un délai d’attente pour une tâche.