Partager via


Présentation des objets de l’espace de travail

Cet article fournit une introduction générale aux objets de l’espace de travail Azure Databricks. Vous pouvez créer, afficher et organiser les objets de l’espace de travail dans le navigateur d’espace de travail à travers des personnages.

Remarque sur la dénomination des ressources de l’espace de travail

Le nom complet d’une ressource d’espace de travail se compose de son nom de base et de son extension de fichier. Par exemple, l’extension de fichier d’un notebook peut être .py, .sql, .scala, .r et .ipynb en fonction de la langue et du format du notebook.

Lorsque vous créez une ressource de notebook, son nom de base et son nom complet (le nom de base concaténé avec l’extension de fichier) doit être unique dans un dossier d’espace de travail. Lorsque vous nommez une ressource, Databricks vérifie si le nom répond à ces critères en y ajoutant l’extension de fichier et si le nom complet correspond à un fichier existant dans le dossier, le nom n’est pas autorisé et vous devez choisir un nouveau nom pour le notebook. Par exemple, si vous essayez de créer un notebook Python (au format source Python) nommé test dans le même dossier qu’un fichier Python nommé test.py, il ne sera pas autorisé.

Clusters

Les clusters Azure Databricks Science des données et Ingénierie et les clusters Databricks Mosaic AI fournissent une plateforme unifiée pour différents cas d’usage tels que l’exécution de pipelines ETL de production, l’analyse de la diffusion en continu, l’analyse ad hoc et le Machine Learning. Un cluster est un type de ressource de calcul Azure Databricks. Les autres types de ressources de calcul incluent les entrepôts SQL Azure Databricks.

Si vous souhaitez obtenir plus d’informations sur la gestion et l’utilisation des clusters, consultez Compute.

Notebooks

Un notebook est une interface web pour les documents contenant une série de cellules exécutables (commandes) qui opèrent sur des fichiers et des tables, des visualisations et du texte narratif. Les commandes peuvent être exécutées en séquence, en faisant référence à la sortie d’une ou plusieurs commandes exécutées précédemment.

Les notebooks sont un mécanisme permettant d’exécuter du code dans Azure Databricks. L’autre mécanisme réside dans les travaux.

Pour plus d’informations sur la gestion et l’utilisation des notebooks, consultez Présentation des notebooks Databricks.

Travaux

Les travaux sont un mécanisme permettant d’exécuter du code dans Azure Databricks. L’autre mécanisme réside dans les notebooks.

Pour plus d’informations sur la gestion et l’utilisation des travaux, consultez Planifier et orchestrer des workflows.

Bibliothèques

Une bibliothèque rend le code créé par un tiers ou localement disponible pour les ordinateurs portables et les travaux en cours d’exécution sur vos clusters.

Pour plus d’informations sur la gestion et l’utilisation des bibliothèques, consultez Bibliothèques.

Données

Vous pouvez importer des données dans un système de fichiers distribué monté dans un espace de travail Azure Databricks et l’utiliser dans des notebooks et des clusters Azure Databricks. De même, vous pouvez utiliser un large éventail de sources de données Apache Spark pour accéder aux données.

Pour plus d’informations sur le chargement des données, consultez l’article Ingérer des données dans un lakehouse Databricks.

Fichiers

Important

Cette fonctionnalité est disponible en préversion publique.

Dans Databricks Runtime 11.3 LTS (et les versions ultérieures), vous pouvez créer et utiliser des fichiers arbitraires dans l’espace de travail Databricks. Les fichiers peuvent être de n’importe quel type. Voici quelques exemples communs :

  • Fichiers .py utilisés dans des modules personnalisés.
  • Fichiers .md, comme README.md.
  • Fichiers .csv ou d’autres petits fichiers de données.
  • .txt fichiers.
  • Fichiers journaux.

Pour plus d’informations sur l’utilisation des fichiers, consultez Interagir avec des fichiers sur Azure Databricks. Pour plus d’informations sur l’utilisation de fichiers pour modulariser votre code à mesure que vous développez avec des notebooks Databricks, consultez Partagez du code entre des notebooks Databricks

Dossiers Git

Les dossiers Git sont des dossiers Azure Databricks dont le contenu est co-versionné en le synchronisant avec un référentiel Git distant. Avec des dossiers Git Azure Databricks, vous pouvez développer des notebooks dans Azure Databricks et utiliser un référentiel Git distant pour la collaboration et la gestion de version.

Pour plus d’informations sur l’utilisation des référentiels, consultez Intégration de Git pour des dossiers Git Databricks.

Modèles

Un modèle fait référence à un modèle inscrit dans le registre de modèles MLflow. Le registre de modèles est un magasin de modèles centralisé qui vous permet de gérer le cycle de vie complet des modèles MLflow. Il fournit une traçabilité du modèle chronologique, le contrôle de version du modèle, des transitions d’étape et des annotations et descriptions de modèle et de version de modèle.

Pour plus d’informations sur la gestion et l’utilisation de modèles, consultez l’article Gérer le cycle de vie des modèles dans Unity Catalog.

Expériences

Une expérience MLflow est l’unité principale d’organisation et de contrôle d’accès pour les exécutions de formation du modèle de Machine Learning MLflow ; toutes les exécutions MLflow appartiennent à une expérience. Chaque expérience vous permet de visualiser, de rechercher et de comparer des exécutions, ainsi que de télécharger des artefacts ou des métadonnées à analyser dans d’autres outils.

Pour plus d’informations sur la gestion et l’utilisation des expériences, consultez Organiser des exécutions d’entraînement avec des expériences MLflow.

Requêtes

Les requêtes sont des instructions SQL qui vous permettent d’interagir avec vos données. Pour obtenir plus d’informations, consultez Accéder et gérer des requêtes enregistrées.

Tableaux de bord

Les tableaux de bord sont des présentations de visualisations de requêtes et de commentaires. Consultez Tableaux de bord ou Tableaux de bord hérités.

Alertes

Les alertes sont des notifications indiquant qu’un champ retourné par une requête a atteint un seuil. Pour plus d’informations, consultez Que sont les alertes Databricks SQL ?.

Références à des objets de l’espace de travail

Historiquement, les utilisateurs devaient inclure le préfixe de chemin d’accès /Workspace pour certaines API Databricks (%sh), mais pas pour d’autres (%run, les entrées de l’API REST).

Les utilisateurs peuvent utiliser partout des chemins d’accès d’espace de travail avec le préfixe /Workspace. Les anciennes références aux chemins d’accès sans le préfixe /Workspace sont redirigées et continuent de fonctionner. Nous recommandons que tous les chemins d’accès d’espace de travail aient le préfixe /Workspace pour les différencier des chemins d’accès de volume et DBFS.

Le prérequis pour un comportement cohérent des préfixes de chemin d’accès /Workspace est le suivant : il ne peut pas y avoir de dossier /Workspace au niveau racine de l’espace de travail. Si vous avez un dossier /Workspace au niveau racine et souhaitez activer cette amélioration de l’expérience utilisateur, supprimez ou renommez le dossier /Workspace que vous avez créé et contactez l’équipe de votre compte Azure Databricks.

Partager un fichier, un dossier ou une URL de notebook

Dans votre espace de travail Azure Databricks, les URL des fichiers, notebooks et dossiers de l’espace de travail se trouvent dans les formats suivants :

URL de fichier d’espace de travail

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>

URL de notebook

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>

URL de dossier (espace de travail et Git)

  https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>

Ces liens peuvent être rompus si un dossier, un fichier ou un notebook dans le chemin actuel est mis à jour avec une commande d’extraction Git, ou est supprimé et recréé avec le même nom. Toutefois, vous pouvez construire un lien basé sur le chemin d’accès de l’espace de travail à partager avec d’autres utilisateurs Databricks avec des niveaux d’accès appropriés en le remplaçant par un lien au format suivant :

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>

Les liens vers les dossiers, les notebooks et les fichiers peuvent être partagés en remplaçant tout ce qui se trouve dans l’URL après ?o=<16-digit-workspace-ID> par le chemin d’accès au fichier, au dossier ou au notebook à partir de la racine de l’espace de travail. Si vous partagez une URL vers un dossier, supprimez également /browse/folders/<16-digit-ID> de l’URL d’origine.

Pour obtenir le chemin du fichier, ouvrez le menu contextuel en cliquant avec le bouton droit sur le dossier, le notebook ou le fichier dans votre espace de travail que vous souhaitez partager, puis sélectionnez Copier l’URL/le chemin d’accès>Chemin d’accès complet. Ajoutez #workspace au chemin d’accès du fichier que vous venez de copier, puis ajoutez la chaîne résultante après le ?o=<16-digit-workspace-ID> afin qu’elle corresponde au format d’URL ci-dessus.

Sélectionnez « Copier le chemin de l'URL » suivi de « Chemin complet » dans le menu contextuel d’un dossier de l’espace de travail.

Exemple de formulation d’URL 1 : URL de dossier

Pour partager l’URL du dossier de l’espace de travail https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222, supprimez le substring browse/folders/1111111111111111 de l’URL. Ajoutez #workspace suivi du chemin d’accès à l’objet dossier ou espace de travail que vous souhaitez partager.

Dans ce cas, le chemin d’accès de l’espace de travail est vers un dossier, /Workspace/Users/user@example.com/team-git/notebooks. Après avoir copié le chemin d’accès complet à partir de votre espace de travail, vous pouvez maintenant construire le lien partageable :

  https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks

Exemple de formulation d’URL 2 : URL de notebook

Pour partager l’URL du notebook https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333, supprimez #notebook/2222222222222222/command/3333333333333333. Ajoutez #workspace suivi du chemin d’accès à l’objet dossier ou espace de travail.

Dans ce cas, le chemin d’accès de l’espace de travail pointe vers un notebook, /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook. Après avoir copié le chemin d’accès complet à partir de votre espace de travail, vous pouvez maintenant construire le lien partageable :

  https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook

Vous disposez maintenant d’une URL stable pour un fichier, un dossier ou un chemin d’accès au notebook à partager ! Pour plus d’informations sur les URL et les identificateurs, consultez Obtenir des identificateurs pour les objets de l’espace de travail.