Was ist mit Databricks Repos passiert?
Azure Databricks hat neue Benutzeroberflächenelemente eingeführt, mit denen Benutzer direkt über die Arbeitsbereichsbenutzeroberfläche mit Git-Repository-unterstützten Ordnern arbeiten können, und ersetzt effektiv die vorherigen, separaten „Repos“-Featurefunktionen.
Was bedeutet diese Änderung für mich?
Wenn Sie das Databricks Repos-Features für die koversionierte Git-basierte Quellcodeverwaltung von Projektressourcen verwenden, hat sich die Kernfunktionalität nicht geändert. Der wichtigste Unterschied besteht darin, dass viele kontextbezogene Benutzeroberflächenvorgänge jetzt auf „Git-Ordner“ und nicht auf „Repos“ verweisen.
Beispielsweise könnte ein von einem Git-Repository gesicherter Databricks-Ordner erstellt werden, indem Neu und dann auf der Benutzeroberfläche Repo ausgewählt wird:
Jetzt wählen Sie Neu und dann Git-Ordner aus. Dasselbe, nur ein anderer Name!
Diese Änderung bietet einige Verbesserungen, die das Arbeiten mit versionsgesteuerten Ordnern vereinfachen:
- Bessere Ordnerorganisation: Git-Ordner können auf jeder Ebene der Arbeitsbereichsdateistruktur erstellt werden, sodass Sie Ihre Git-Ordner auf eine Weise organisieren können, die für Ihr Projekt am besten geeignet ist. Sie können beispielsweise Git-Ordner unter
/Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>
erstellen. Repos können nur auf fester Verzeichnisebene erstellt werden, z. B. dem Stamm des Ordners „Repos“,/Workspace/Repos/<user email>/<Repo name>
.- Hinweis: Git-Ordner können andere Ressourcen enthalten oder mit anderen Ressourcen zusammensetzen, die von Repos heute nicht unterstützt werden. Nicht unterstützte Objekttypen wie DBSQL-Objekte und MLflow-Experimente können in Git-Ordner verschoben werden. Die Serialisierungsunterstützung für zusätzliche Ressourcen wird im Laufe der Zeit hinzugefügt.
- Vereinfachte Benutzeroberflächenverhalten: Diese Änderung bringt eine allgemeine Arbeitsbereichsinteraktion mit Git direkt in Ihren Databricks-Arbeitsbereich, und reduziert die Zeit für die Navigation zwischen Ihrem Arbeitsbereich und Ihren versionsgesteuerten Git-Ordnern.
Was hat sich genau geändert?
- Git-Ordner können außerhalb des
/Repos
-Verzeichnisses erstellt werden. - Git-Ordner werden erstellt, indem Sie Neu>Git-Ordner in einem Databricks-Arbeitsbereich auswählen. Dadurch wird unter
/Workspace/Users/<user-email>/
ein neuer Git-Ordner erstellt. - Git-Ordner können in verschiedenen Tiefen der Arbeitsbereichsdateistruktur erstellt werden, solange sie sich unter
/Workspace/Users/<user-email>
befinden. Sie können beispielsweise Git-Ordner unter/Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>
erstellen. Sie können mehrere Git-Ordner unter/Workspace/Users/<user-email>
haben. - Nicht unterstützte Ressourcen sind in Git-Ordnern zulässig. Die Serialisierungsunterstützung für andere Ressourcentypen wird im Laufe der Zeit hinzugefügt.
- Im Gegensatz zu Repos können Sie ohne eine Remote-Repository-URL keinen neuen Git-Ordner in Databricks erstellen.
Was geschieht mit meinem aktuellen Repos?
Wenn Sie Repos für Ihren Azure Databricks-Arbeitsbereich definiert haben, werden sie nicht mehr entfernt, und Sie müssen diese vorhandenen Repositorys nicht zu Git-Ordnern migrieren. Stattdessen wurden Repos in die Benutzeroberfläche des Azure Databricks-Arbeitsbereichs integriert und werden nicht mehr als separate Gruppe von Ordnern dargestellt, die unter einem Repo-Knoten auf oberster Ebene organisiert sind. Sie finden sie jetzt unter dem /Workspace
Stammordner als /Workspace/Repos
.
- Vorhandene
/Repos
Verweise funktionieren weiterhin. Pfade, die entweder mit/Repos
demselben Ordner beginnen oder/Workspace/Repos
auf denselben Ordner verweisen, und deklarierte Pfade injobs
,dbutils.notebook.run
und%run
Verweise können unverändert bleiben. - In einem seltenen Fall müssen Sie eine einmalige Änderung in Ihrem Arbeitsbereich vornehmen, damit diese Umleitung funktioniert. Weitere Informationen zu dieser Änderung finden Sie unter Verweise auf Arbeitsbereichsobjekte.
Databricks empfiehlt Benutzern, neue Git-Ordner anstelle von Repos zu erstellen, wenn sie über den Databricks-Arbeitsbereich eine Verbindung mit der Git-Quellcodeverwaltung herstellen müssen. Durch die gemeinsame Zuweisung von Git-Repos und anderen Arbeitsbereichsressourcen sind Git-Ordner besser auffindbar und können einfacher verwaltet werden als Repos.
Git-Ordnerberechtigungen Git-Ordner haben dieselben Arbeitsbereichordnerberechtigungen wie andere Arbeitsbereichsordner. Benutzer müssen über die CAN_MANAGE
-Berechtigung verfügen, um die meisten Git-Vorgänge auszuführen.
Welche DBR sollte ich zum Ausführen von Code in Git-Ordnern verwenden?
Für eine konsistente Codeausführung zwischen Git-Ordnern und Legacyrepos empfiehlt Databricks Benutzern, Code nur in Git-Ordnern mit DBR 15+ auszuführen.
Verhalten des aktuellen Arbeitsverzeichnisses (CWD)
Databricks Runtime (DBR) Version 14 oder höher ermöglicht die Verwendung relativer Pfade und bietet die gleiche aktuelle Arbeitsverzeichnis(CWD)-Erfahrung für alle Notizbücher, in denen Sie das Notebook aus dem aktuellen Arbeitsverzeichnis ausführen. Aktuelles Arbeitsverzeichnis (CWD)-Verhalten kann zwischen Notebooks in einem Git-Ordner und einem Nicht-Git-Ordner für ältere Versionen der Databricks Runtime (DBR) inkonsistent sein.
Python sys.path-Verhalten
Databricks Runtime (DBR) Version 14.3 oder höher bietet das gleiche sys.path
-Verhalten in Git-Ordnern wie in Legacy-Repos. Bei früheren DBR-Versionen unterscheidet sich das Verhalten von Git-Ordnern von älteren Repositorys, da das Stammrepositoryverzeichnis nicht automatisch zu sys.path
für Git-Ordner hinzugefügt wird. Für Python enthält sys.path
eine Liste der Verzeichnisse, die der Interpreter beim Importieren von Modulen durchsucht. Wenn Sie DBR 15 oder höher nicht verwenden können, können Sie manuell einen Ordnerpfad an sys.path
als Problemumgehung anfügen.
Beispiele zum Hinzufügen von Verzeichnissen zu sys.path
mithilfe relativer Pfade finden Sie unter Importieren von Python- und R-Modulen.
Rangfolge der Python-Bibliothek
Databricks Runtime (DBR) Version 14.3 oder höher bietet die gleiche Python-Bibliotheksrangfolge in Git-Ordnern wie in älteren Repos.