Notebook-Aufgabe für Jobs
Verwenden Sie die Notebook-Aufgabe zum Bereitstellen von Databricks-Notebooks.
Konfigurieren einer Notebook-Aufgabe
Bevor Sie beginnen, müssen Sie ihr Notebook an einem Ort haben, auf den der Benutzer zugreifen kann, der den Job konfiguriert.
Hinweis
Die Job-Benutzeroberfläche zeigt Optionen dynamisch basierend auf anderen konfigurierten Einstellungen an.
So beginnen Sie den Flow zum Konfigurieren einer Notebook
-Aufgabe:
- Navigieren Sie zur Registerkarte Aufgaben in der Benutzeroberfläche „Jobs“.
- Wählen Sie im Dropdownmenü Typ die Option
Notebook
aus.
Konfigurieren der Quelle
Wählen Sie im Dropdown-Menü Quelle einen Speicherort für das Python-Skript mit einer der folgenden Optionen aus.
Arbeitsbereich
Verwenden Sie Arbeitsbereich, um ein im Arbeitsbereich gespeichertes Notebook zu konfigurieren, indem Sie die folgenden Schritte ausführen:
- Klicken Sie auf das Feld Pfad. Das Dialogfeld Notebook auswählen wird angezeigt.
- Navigieren Sie zum Notebook, klicken Sie auf sie, um die Datei hervorzuheben und klicken Sie dann auf Bestätigen.
Hinweis
Mit dieser Option können Sie eine Aufgabe für ein Notebook konfigurieren, die in einem Ordner „Databricks Git“ gespeichert ist. Databricks empfiehlt die Verwendung der Git-Anbieter-Optionen und eines Remote-Git-Repositorys für die Versionsverwaltung von Ressourcen, die mit Jobs geplant sind.
Git-Anbieter
Verwenden Sie Git-Anbieter, um eine Notebook zu konfigurieren, das in einem Remote-Git-Repository gespeichert ist.
Die von der Benutzeroberfläche angezeigten Optionen hängen davon ab, ob Sie bereits einen Git-Anbieter an anderer Stelle konfiguriert haben. Nur ein Git-Remote-Repository kann für alle Aufgaben in einem Job verwendet werden. Siehe Verwenden von Git mit Jobs.
Wichtig
Notizbücher, die von Azure Databricks-Aufträgen erstellt werden, die aus Remote-Git-Repositorys ausgeführt werden, sind kurzlebig und können nicht darauf vertrauen, MLflow-Ausführungen, Experimente oder Modelle nachzuverfolgen. Verwenden Sie beim Erstellen eines Notizbuchs aus einem Auftrag ein MLflow-Experiment des Arbeitsbereichs (anstelle eines Notizbuch-MLflow-Experiments), und rufen Sie mlflow.set_experiment("/path/to/experiment")
im Arbeitsbereichsnotizbuch auf, bevor Sie MLflow-Tracking-Code ausführen. Weitere Informationen finden Sie unter Verhindern von Datenverlust in MLflow-Experimenten.
Das Feld Pfad wird angezeigt, nachdem Sie eine Git-Referenz konfiguriert haben.
Geben Sie den relativen Pfad für Ihr Notebook ein, z. B. etl/bronze/ingest.py
.
Wichtig
Wenn Sie den relativen Pfad eingeben, beginnen Sie nicht mit /
oder ./
. Ist der absolute Pfad für das Notebook, auf das Sie zugreifen möchten, beispielsweise /etl/bronze/ingest.py
, geben Sie im Feld Pfad etl/bronze/ingest.py
ein.
Konfigurieren von Compute und abhängigen Bibliotheken
- Verwenden Sie Compute, um einen Cluster auszuwählen oder zu konfigurieren, der die Logik Ihrem Notebook unterstützt.
- Wenn Sie
Serverless
-Compute verwenden, verwenden Sie das Feld Umgebung und Bibliotheken, um eine neue Umgebung auszuwählen, zu bearbeiten oder hinzuzufügen. Weitere Informationen finden Sie unter Installieren von Notebookabhängigkeiten. - Klicken Sie für alle anderen Computekonfigurationen unter abhängigen Bibliotheken auf +Hinzufügen. Der Dialog Abhängige Bibliothek hinzufügen wird angezeigt.
- Sie können eine vorhandene Bibliothek auswählen oder eine neue Bibliothek hochladen.
- Sie können nur Bibliotheken verwenden, die an einem Speicherort gespeichert sind, der von Ihren Compute-Konfigurationen unterstützt wird. Siehe Python-Bibliotheksunterstützung.
- Jede Bibliotheksquelle verfügt über einen anderen Flow zum Auswählen oder Hochladen einer Bibliothek. Weitere Informationen finden Sie unter Bibliotheken.
Abschließen der Job-Konfiguration
- (Optional) Konfigurieren Sie Parameter als Schlüssel-Wert-Paare, auf die im Notebook mit
dbutils.widgets
zugegriffen werden kann. Weitere Informationen finden Sie unter Konfigurieren von Aufgabenparametern. - Klicken Sie auf Aufgabe speichern.
Begrenzungen
Die Ausgabe der Notebookzellen insgesamt (die kombinierte Ausgabe aller Notebookzellen) unterliegt einer Größenbeschränkung von 20 MB. Außerdem ist die Ausgabe einzelner Zellen auf 8 MB beschränkt. Wenn die Zellausgabe insgesamt 20 MB übersteigt, oder wenn die Ausgabe einer einzelnen Zelle größer als 8 MB ist, wird die Ausführung abgebrochen und als fehlgeschlagen markiert.
Wenn Sie Hilfe benötigen, um die Zellen zu finden, die das Limit (bald) überschreiten, führen Sie das Notebook für einen All-Purpose-Cluster aus, und verwenden Sie diese Technik zur automatischen Notebookspeicherung.