Partager via


Qu’est-il arrivé à Databricks Repos ?

Azure Databricks a déployé de nouveaux éléments d’interface utilisateur qui permettent aux utilisateurs de travailler directement avec des dossiers sauvegardés par un référentiel Git à partir de l’interface utilisateur de l’espace de travail, en remplaçant efficacement les fonctionnalités antérieures Repos distinctes.

Que signifie ce changement pour moi ?

Si vous êtes un utilisateur de la fonctionnalité Databricks Repos pour le contrôle de code source basé sur Git co-versionné des ressources de projet, la fonctionnalité principale n’a pas changé. La différence la plus notable est que de nombreuses opérations contextuelles d’interface utilisateur font désormais référence aux dossiers Git plutôt qu’à Repos.

Par exemple, un dossier Databricks sauvegardé par un référentiel Git peut être créé en sélectionnant Nouveau, puis Référentiel à partir de l’interface utilisateur :

Option de menu « Nouveau » utilisée pour faire référence à un Repo

À présent, vous sélectionnez Nouveau et choisissez Dossier Git. Même chose, autre nom !

L’option de menu « Nouveau » vous demande maintenant de créer un « Dossier Git »

Cette modification fournit des améliorations qui simplifient l’utilisation des dossiers contrôlés par la version :

  1. Meilleure organisation des dossiers : les dossiers Git peuvent être créés à n’importe quel niveau de l’arborescence de fichiers de l’espace de travail, ce qui vous permet d’organiser vos dossiers Git de manière optimale pour votre projet. Par exemple, vous pouvez créer des dossiers Git à l’emplacement /Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>. Les référentiels ne peuvent être créés qu’au niveau d’un répertoire fixe, par exemple la racine du dossier utilisateur Repos comme /Workspace/Repos/<user email>/<Repo name>.
    • Remarque : les dossiers Git peuvent contenir ou colocaliser avec d’autres ressources qui ne sont pas prises en charge par Repos aujourd’hui. Les types de ressources non pris en charge, tels que les ressources DBSQL et les expériences MLflow, peuvent être déplacés dans des dossiers Git. La prise en charge de la sérialisation pour les ressources supplémentaires sera ajoutée au fil du temps.
  2. Comportements simplifiés de l’interface utilisateur : cette modification apporte une interaction d’espace de travail courante, l’utilisation de Git, directement dans votre espace de travail Databricks et réduit le temps passé à naviguer entre votre espace de travail et vos dossiers Git contrôlés par la version.

Qu’est-ce qui a changé, en particulier ?

  1. Les dossiers Git peuvent être créés en dehors du répertoire /Repos.
  2. Les dossiers Git sont créés en sélectionnant nouveau dossier>Dossier Git dans un espace de travail Databricks. Cela crée un dossier Git sous /Workspace/Users/<user-email>/.
  3. Les dossiers Git peuvent être créés à différentes profondeurs de l’arborescence de l’espace de travail tant qu’ils sont sous /Workspace/Users/<user-email>. Par exemple, vous pouvez créer des dossiers Git à l’emplacement /Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>. Vous pouvez avoir plusieurs dossiers Git sous /Workspace/Users/<user-email>.
  4. Les ressources non prises en charge sont autorisées dans les dossiers Git. La prise en charge de la sérialisation pour d’autres types de ressources sera ajoutée au fil du temps.
  5. Contrairement aux Repos, vous ne pouvez pas créer un dossier Git dans Databricks sans URL de référentiel distant.

Que se passe-t-il pour mes dépôts actuels ?

Si vous avez défini repos pour votre espace de travail Azure Databricks, ils ne vont pas et vous n’êtes pas obligé de migrer ces dépôts existants vers des dossiers Git. Au lieu de cela, les dépôts ont été intégrés à l’interface utilisateur de l’espace de travail Azure Databricks et ne sont plus présentés comme un ensemble distinct de dossiers organisés sous un nœud de dépôt de niveau supérieur. Ils se trouvent désormais sous le /Workspace dossier racine en tant que /Workspace/Repos.

  • Les références existantes /Repos continueront de fonctionner. Les chemins d’accès qui commencent par /Repos le même dossier ou /Workspace/Repos font référence au même dossier et déclarés dans jobs, dbutils.notebook.runet les %run références peuvent rester inchangés.
  • Dans un cas rare, vous devez apporter une modification ponctuelle dans votre espace de travail pour que cette redirection fonctionne. Pour plus d’informations sur cette modification, consultez Références aux objets d’espace de travail.

Databricks recommande aux utilisateurs de créer de nouveaux dossiers Git au lieu de Repos s’ils doivent se connecter au contrôle de code source Git à partir de l’espace de travail Databricks. La colocalisation des référentiels Git et d’autres ressources d’espace de travail rend les dossiers Git plus détectables et plus faciles à gérer que les Repos.

Autorisations de dossier Git Les dossiers Git ont les mêmes autorisations de dossier d’espace de travail que d’autres dossiers d’espace de travail. Les utilisateurs doivent disposer de l’autorisation CAN_MANAGE pour effectuer la plupart des opérations Git.

Quel DBR dois-je utiliser pour exécuter du code dans des dossiers Git ?

Pour une exécution cohérente du code entre les dossiers Git et les référentiels hérités, Databricks recommande aux utilisateurs d’exécuter du code uniquement dans les dossiers Git avec DBR 15+.

Comportement du répertoire de travail actuel (CWD)

Databricks Runtime (DBR) version 14 ou ultérieure permet l’utilisation de chemins relatifs et fournit la même expérience de répertoire de travail actuel (CWD) pour tous les notebooks, où vous exécutez le notebook à partir du répertoire de travail actif. Les comportements de répertoire de travail actuel (CWD) peuvent être incohérents entre les notebooks dans un dossier Git et un dossier non Git pour les versions antérieures de Databricks Runtime (DBR).

Comportement de sys.path avec Python

Databricks Runtime (DBR) version 14.3 ou version ultérieure fournit le même comportement sys.path dans les dossiers Git que dans les Repos hérités. Avec les versions antérieures de DBR, le comportement des dossiers Git est différent des Repos hérités, car le répertoire de référentiel racine n’est pas automatiquement ajouté à sys.path pour les dossiers Git. Pour Python, sys.path contient une liste de répertoires que l’interpréteur recherche lors de l’importation de modules. Si vous ne pouvez pas utiliser DBR 15 ou version ultérieure, une solution de contournement consiste à ajouter manuellement un chemin de dossier à sys.path.

Pour obtenir des exemples sur l’ajout de répertoires à sys.path à l’aide de chemins relatifs, consultez Importer des modules Python et R.

Priorité de la bibliothèque Python

Databricks Runtime (DBR) version 14.3 ou ultérieure fournit la même priorité de bibliothèque Python dans les dossiers Git que dans les dépôts hérités.