Anzeigen, Verwalten und Analysieren von Mosaic AI Model Training-Ausführungen

Artikel
10/15/2024

Wichtig

Dieses Feature ist in den folgenden Regionen als Public Preview verfügbar: centralus, eastus, eastus2, northcentralus und westus.

In diesem Artikel wird beschrieben, wie Sie Mosaic AI Model Training (ehemals Foundation Model Training) mit APIs oder mit der Benutzeroberfläche anzeigen, verwalten und analysieren.

Informationen zum Erstellen von Ausführungen finden Sie unter Erstellen einer Trainingsausführung mithilfe der Mosaic AI Model Training-API und Erstellen einer Trainingsausführung mithilfe der Mosaic AI Model Training-Benutzeroberfläche.

Verwenden von Mosaic AI Model Training-APIs zum Anzeigen und Verwalten von Trainingsausführungen

Die Mosaic AI Model Training-APIs stellen die folgenden Funktionen zum Verwalten Ihrer Trainingsausführungen bereit.

Ausführung abrufen

Verwenden Sie die Funktion „get()“, um eine Ausführung nach Namen oder Ausführungsobjekt zurückzugeben, die Sie gestartet haben.

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

Auflisten von Ausführungen

Verwenden Sie die Funktion „list()“, um die Ausführungen anzuzeigen, die Sie gestartet haben. In der folgenden Tabelle sind die optionalen Filter aufgeführt, die Sie angeben können.

Optionale Filter	Definition
`finetuning_runs`	Eine Liste der abzurufenden Ausführungen. Standardmäßig werden alle Ausführungen ausgewählt.
`user_emails`	Wenn freigegebene Ausführungen für Ihren Arbeitsbereich aktiviert sind, können Sie Ergebnisse nach Benutzer*innen filtern, die die Trainingsausführung übermittelt haben. Standardmäßig wird kein Benutzerfilter verwendet.
`before`	Eine datetime oder datetime-Zeichenfolge, vor der die Ausführungen gefiltert werden sollen. Der Standardwert lautet „Alle Ausführungen“.
`after`	Eine datetime oder datetime-Zeichenfolge, nach der die Ausführungen gefiltert werden sollen. Der Standardwert lautet „Alle Ausführungen“.

from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='2023-01-01', limit=50)

Abbrechen von Trainingsausführungen

Verwenden Sie die Funktion cancel(), und übergeben Sie den Namen der Ausführung, um eine einzelne Trainingsausführung abzubrechen.

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

Übergeben Sie die spezifischen Ausführungsnamen als Liste, um mehrere Trainingsausführungen abzubrechen.

from databricks.model_training import foundation_model as fm

runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)

Übergeben Sie die Experiment-ID, um alle Trainingsausführungen in einem Experiment abzubrechen.

from databricks.model_training import foundation_model as fm

experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)

Überprüfen des Status von Trainingsausführungen

In der folgenden Tabelle sind die Ereignisse aufgeführt, die von einer Trainingsausführung erstellt wurden. Verwenden Sie die Funktion „get_events()“ jederzeit während der Ausführung, um den Fortschritt ihrer Ausführung anzuzeigen.

Hinweis

Beim Trainieren von Mosaic KI-Modellen wird ein Limit von 10 aktiven Ausführungen erzwungen. Diese Ausführungen befinden sich entweder in der Warteschlange, werden ausgeführt oder werden beendet. Ausführungen werden nicht mehr als aktiv betrachtet, wenn sie sich im Status ABGESCHLOSSEN, FEHLERHAFT oder GESTOPPT befinden.

Ereignistyp	Beispielereignisnachricht	Definition
`CREATED`	Ausführung erstellt.	Die Trainingsausführung wurde erstellt. Wenn Ressourcen verfügbar sind, wird die Ausführung gestartet. Andernfalls wechselt sie in den Zustand „`Pending`“.
`STARTED`	Ausführung gestartet.	Ressourcen wurden zugewiesen, und die Ausführung wurde gestartet.
`DATA_VALIDATED`	Trainingsdaten überprüft.	Überprüft, dass Trainingsdaten korrekt formatiert sind.
`MODEL_INITIALIZED`	Modelldaten, die für das Basismodell „`meta-llama/Llama-2-7b-chat-hf`“ heruntergeladen und initialisiert wurden.	Gewichtungen für das Basismodell wurden heruntergeladen, und das Training kann beginnen.
`TRAIN_UPDATED`	[epoch=1/1][batch=50/56][ETA=5min] Train loss: 1.71	Meldet den aktuellen Trainingsbatch, die Epoche oder das Token, die geschätzte Zeit für den Abschluss des Trainings (ohne Prüfpunktuploadzeit) und den Verlust des Trainings. Dieses Ereignis wird aktualisiert, wenn jeder Batch endet. Wenn die Ausführungskonfiguration `max_duration` in `tok` Einheiten angibt, wird der Fortschritt in Token gemeldet.
`TRAIN_FINISHED`	Training abgeschlossen.	Das Training wurde abgeschlossen. Der Prüfpunktupload beginnt.
`COMPLETED`	Ausführung abgeschlossen. Endgültige Gewichtungen hochgeladen.	Der Prüfpunkt wurde hochgeladen, und die Ausführung wurde abgeschlossen.
`CANCELED`	Ausführung abgebrochen.	Die Ausführung wird abgebrochen, wenn `fm.cancel()` auf ihr aufgerufen wird.
`FAILED`	Mindestens ein Trainings-Dataset-Beispiel weist unbekannte Schlüssel auf. Überprüfen Sie die Dokumentation auf unterstützte Datenformate.	Fehler bei der Ausführung. Überprüfen Sie `event_message` auf handlungsrelevanten Details, oder wenden Sie sich an den Support.

from databricks.model_training import foundation_model as fm

fm.get_events()

Verwenden der Benutzeroberfläche zum Anzeigen und Verwalten von Ausführungen

So zeigen Sie die Ausführung auf der Benutzeroberfläche an:

Klicken Sie auf Experimente in der linken Navigationsleiste, um die Seite „Experimente“ anzuzeigen.
Klicken Sie in der Tabelle auf den Namen ihres Experiments, um die Experimentseite anzuzeigen. Auf der Seite „Experiment“ werden alle dem Experiment zugeordneten Ausführungen aufgeführt.
Wenn Sie zusätzliche Informationen oder Metriken in der Tabelle anzeigen möchten, klicken Sie auf , und wählen Sie die im Menü anzuzeigenden Elemente aus:
Weitere Ausführungsinformationen sind auf der Registerkarte Diagramm verfügbar:
Sie können auch auf den Namen der Ausführung klicken, um den Ausführungsbildschirm anzuzeigen. Auf diesem Bildschirm erhalten Sie Zugriff auf weitere Details zur Ausführung.

Prüfpunkte

Um auf den Prüfpunktordner zuzugreifen, klicken Sie auf der Registerkarte Artefakte auf dem Ausführungsbildschirm. Öffnen Sie den Namen des Experiments, und öffnen Sie dann den Ordner Prüfpunkte. Diese Artefaktprüfpunkte sind nicht mit dem registrierten Modell am Ende einer Trainingsausführung identisch.

Prüfpunktordner auf der Registerkarte „Artefakte“

In diesem Ordner befinden sich einige Verzeichnisse:

Die Epochenordner (namens ep<n>-xxx) enthalten die Gewichtungen und Modellzustände an jedem Composer-Prüfpunkt. Composer-Prüfpunkte werden in regelmäßigen Abständen durch Training gespeichert, diese werden zum Fortsetzen eines Feinabstimmungstrainings und für weitere Feinabstimmung verwendet. Dieser Prüfpunkt ist der Prüfpunkt, den Sie als custom_weights_path übergeben, um eine weitere Trainingsausführung mit diesen Gewichtungen zu starten. Siehe Erstellen von benutzerdefinierten Modellgewichtungen.
Im Ordner huggingface werden Hugging Face-Prüfpunkte auch regelmäßig durch Training gespeichert. Nachdem Sie den Inhalt in diesem Ordner heruntergeladen haben, können Sie diese Prüfpunkte wie jeden anderen Hugging Face-Prüfpunkt mit AutoModelForCausalLM.from_pretrained(<downloaded folder>) laden.
checkpoints/latest-sharded-rank0.symlink ist eine Datei, die den Pfad zum neuesten Prüfpunkt enthält, den Sie zum Fortsetzen des Trainings verwenden können.

Sie können auch die Composer-Prüfpunkte für eine Ausführung abrufen, nachdem sie mit get_checkpoints(run) gespeichert wurden. Diese Funktion verwendet das Ausführungsobjekt als Eingabe. Wenn noch keine Prüfpunkte vorhanden sind, werden Sie aufgefordert, den Vorgang nach dem Speichern der Prüfpunkte erneut auszuführen.

Freigeben über