Vorbereiten von Daten für Aufgaben zum maschinellen Sehen mit automatisiertem ML (v1)
GILT FÜR: Python SDK azureml v1
Wichtig
Einige Azure CLI-Befehle in diesem Artikel verwenden die Erweiterung azure-cli-ml
oder v1 für Azure Machine Learning. Der Support für die v1-Erweiterung endet am 30. September 2025. Sie können die v1-Erweiterung bis zu diesem Datum installieren und verwenden.
Es wird empfohlen, vor dem 30. September 2025 zur ml
- oder v2-Erweiterung zu wechseln. Weitere Informationen zur v2-Erweiterung finden Sie unter Was sind die Azure Machine Learning CLI und das Python SDK v2?.
Wichtig
Die Unterstützung für das Trainieren von Modellen für maschinelles Sehen mit automatisiertem ML in Azure Machine Learning ist ein experimentelles Feature, das sich in der öffentlichen Vorschau befindet. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.
In diesem Artikel erfahren Sie, wie Sie Bilddaten für das Trainieren von Modellen für maschinelles Sehen mit automatisiertem maschinellem Lernen in Azure Machine Learning vorbereiten.
Um Modelle für Aufgaben zum maschinellen Sehen mit automatisiertem maschinellem Lernen zu generieren, müssen Sie bezeichnete Bilddaten als Eingabe für das Modelltraining in Form eines Azure Machine Learning-TabularDataset verwenden.
Um sicherzustellen, dass Ihr TabularDataset das akzeptierte Schema für die Nutzung in automatisiertem ML aufweist, können Sie das Datenbeschriftungstool von Azure Machine Learning oder ein Konvertierungsskript verwenden.
Voraussetzungen
Kenntnis der akzeptierten Schemas für JSONL-Dateien für AutoML-Experimente für maschinelles Sehen
Beschriftete Daten, die Sie zum Trainieren von Modellen für maschinelles Sehen mit automatisiertem ML verwenden möchten
Azure Machine Learning-Datenbeschriftung
Wenn Sie über keine beschrifteten Daten verfügen, können Sie das Datenbeschriftungstool von Azure Machine Learning verwenden, um Bilder manuell zu beschriften. Dieses Tool generiert automatisch die für das Training erforderlichen Daten im akzeptierten Format.
Es unterstützt Sie beim Erstellen, Verwalten und Überwachen von Datenbeschriftungsaufgaben für:
- Bildklassifizierung (mehrere Klassen und mehrere Beschriftungen)
- Objekterkennung (Begrenzungsrahmen)
- Instanzsegmentierung (Polygon)
Wenn Sie bereits über ein Datenbeschriftungsprojekt verfügen und diese Daten verwenden möchten, können Sie Ihre beschrifteten Daten als Azure Machine Learning-TabularDataset exportieren, das dann direkt mit automatisiertem ML zum Trainieren von Modellen für maschinelles Sehen verwendet werden kann.
Verwenden von Konvertierungsskripts
Wenn Sie über beschriftete Daten in gängigen Computer-Vision-Datenformaten wie VOC oder COCO verfügen, stehen Ihnen in den Notebook-BeispielenHilfsskripte zur Erzeugung von JSONL-Dateien für Trainings- und Validierungsdaten zur Verfügung.
Wenn Ihre Daten keines der zuvor erwähnten Formate aufweisen, können Sie ein eigenes Skript verwenden, um JSON Lines-Dateien zu generieren. Verwenden Sie zum Generieren von JSON Lines-Dateien Schemas gemäß der Definition unter Schema für JSONL-Dateien für Bildexperimente mit automatisiertem ML.
Nachdem Ihre Datendateien in das akzeptierte JSONL-Format konvertiert wurden, können Sie sie in Ihr Speicherkonto in Azure hochladen.
Hochladen der JSONL-Datei und der Bilder in den Speicher
Um die Daten für ein automatisiertes ML-Training zu verwenden, laden Sie die Daten über einen Datenspeicher in Ihren Azure Machine Learning-Arbeitsbereich hoch. Der Datenspeicher bietet Ihnen einen Mechanismus zum Hoch- und Herunterladen von Daten in den Azure-Speicher und zur Interaktion mit diesen Daten von Ihren Remotecomputezielen aus.
Laden Sie das gesamte übergeordnete Verzeichnis, das aus Bildern und JSONL-Dateien besteht, in den Standarddatenspeicher hoch, der bei der Erstellung des Arbeitsbereichs automatisch erstellt wird. Dieser Datenspeicher stellt eine Verbindung mit dem standardmäßigen Azure Blob Storage-Container her, der im Rahmen der Arbeitsbereichserstellung erstellt wurde.
# Retrieve default datastore that's automatically created when we setup a workspace
ds = ws.get_default_datastore()
ds.upload(src_dir='./fridgeObjects', target_path='fridgeObjects')
Wenn der Datenupload abgeschlossen ist, können Sie ein Azure Machine Learning TabularDataset erstellen. Registrieren Sie das Dataset dann für die zukünftige Verwendung als Eingabe für Ihre Experimente mit automatisiertem ML für Modelle des maschinellen Sehens.
from azureml.core import Dataset
from azureml.data import DataType
training_dataset_name = 'fridgeObjectsTrainingDataset'
# create training dataset
training_dataset = Dataset.Tabular.from_json_lines_files(path=ds.path("fridgeObjects/train_annotations.jsonl"),
set_column_types={"image_url": DataType.to_stream(ds.workspace)}
)
training_dataset = training_dataset.register( workspace=ws,name=training_dataset_name)
print("Training dataset name: " + training_dataset.name)