DatasetConsumptionConfig Klasse
Stellt dar, wie das Dataset an ein Computeziel zu übermitteln ist.
Gibt an, wie das Dataset an das Computeziel übermittelt wird.
- Vererbung
-
builtins.objectDatasetConsumptionConfig
Konstruktor
DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)
Parameter
Name | Beschreibung |
---|---|
name
Erforderlich
|
Der Name des Datasets in der Ausführung, der sich vom registrierten Namen unterscheiden kann. Der Name wird als Umgebungsvariable registriert und kann auf Datenebene verwendet werden. |
dataset
Erforderlich
|
Das Dataset, das in der Ausführung verwendet wird. |
mode
|
Der Modus, in dem das Dataset an das Computeziel übermittelt werden soll. Es gibt drei Modi:
Standardwert: direct
|
path_on_compute
|
Der Zielpfad auf dem Compute, unter dem die Daten zur Verfügung gestellt werden. Die Ordnerstruktur der Quelldaten wird beibehalten. Es könnten dieser Ordnerstruktur jedoch Präfixe hinzugefügt werden, damit Konflikte vermieden werden können. Verwenden Sie Standardwert: None
|
name
Erforderlich
|
Der Name des Datasets in der Ausführung, der sich vom registrierten Namen unterscheiden kann. Der Name wird als Umgebungsvariable registriert und kann auf Datenebene verwendet werden. |
dataset
Erforderlich
|
Dataset oder
PipelineParameter oder
tuple(Workspace, str) oder
tuple(Workspace, str, str) oder
OutputDatasetConfig
Das zu liefernde Dataset als Datasetobjekt, Pipelineparameter, das ein Dataset, ein Tupel von (Arbeitsbereich, Datasetname) oder ein Tupel von (Arbeitsbereich, Datasetname, Datasetversion) erfasst. Wenn nur ein Name angegeben wird, verwendet DatasetConsumptionConfig die neueste Version des Datasets. |
mode
Erforderlich
|
Der Modus, in dem das Dataset an das Computeziel übermittelt werden soll. Es gibt drei Modi:
|
path_on_compute
Erforderlich
|
Der Zielpfad auf dem Compute, unter dem die Daten zur Verfügung gestellt werden. Die Ordnerstruktur der Quelldaten wird beibehalten. Es könnten dieser Ordnerstruktur jedoch Präfixe hinzugefügt werden, damit Konflikte vermieden werden können. Es wird empfohlen , tabular_dataset.to_path aufzurufen, um die Struktur des Ausgabeordners anzuzeigen. |
Methoden
as_download |
Den Modus auf „download“ setzen. Bei der übermittelten Ausführung werden Dateien im Dataset in den lokalen Pfad auf dem Computeziel heruntergeladen. Der Downloadspeicherort kann aus Argumentwerten und dem input_datasets-Feld des Ausführungskontexts abgerufen werden.
|
as_hdfs |
Legen Sie den Modus auf hdfs fest. Bei der übermittelten Synapse-Ausführung werden Dateien in den Datasets in den lokalen Pfad auf dem Computeziel konvertiert. Der HDFS-Pfad kann aus Argumentwerten und den Betriebssystemumgebungsvariablen abgerufen werden.
|
as_mount |
Den Modus auf „mount“ setzen. Bei der übermittelten Ausführung werden Dateien in den Datasets in den lokalen Pfad auf dem Computeziel eingebunden. Der Bereitstellungspunkt kann aus Argumentwerten und dem input_datasets-Feld des Ausführungskontexts abgerufen werden.
|
as_download
Den Modus auf „download“ setzen.
Bei der übermittelten Ausführung werden Dateien im Dataset in den lokalen Pfad auf dem Computeziel heruntergeladen. Der Downloadspeicherort kann aus Argumentwerten und dem input_datasets-Feld des Ausführungskontexts abgerufen werden.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Parameter
Name | Beschreibung |
---|---|
path_on_compute
|
Der Zielpfad auf dem Compute, unter dem die Daten zur Verfügung gestellt werden. Standardwert: None
|
Hinweise
Wenn das Dataset aus dem Pfad einer einzelnen Datei erstellt wird, ist der Downloadspeicherort der Pfad der einzelnen heruntergeladenen Datei. Andernfalls ist der Downloadspeicherort der Pfad des umschließenden Ordners für alle heruntergeladenen Dateien.
Wenn path_on_compute mit einem / beginnt, wird er als absoluter Pfad behandelt. Wenn er nicht mit einem / beginnt, wird er als relativer Pfad relativ zum Arbeitsverzeichnis behandelt. Wenn Sie einen absoluten Pfad angegeben haben, stellen Sie sicher, dass der Auftrag über die Berechtigung zum Schreiben in dieses Verzeichnis verfügt.
as_hdfs
Legen Sie den Modus auf hdfs fest.
Bei der übermittelten Synapse-Ausführung werden Dateien in den Datasets in den lokalen Pfad auf dem Computeziel konvertiert. Der HDFS-Pfad kann aus Argumentwerten und den Betriebssystemumgebungsvariablen abgerufen werden.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_1']
as_hdfs()
Hinweise
Wenn das Dataset aus dem Pfad einer einzelnen Datei erstellt wird, ist der HDFS-Pfad der Pfad der einzelnen Datei. Andernfalls ist der HDFS-Pfad der Pfad des einschließenden Ordners für alle eingebundenen Dateien.
as_mount
Den Modus auf „mount“ setzen.
Bei der übermittelten Ausführung werden Dateien in den Datasets in den lokalen Pfad auf dem Computeziel eingebunden. Der Bereitstellungspunkt kann aus Argumentwerten und dem input_datasets-Feld des Ausführungskontexts abgerufen werden.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Parameter
Name | Beschreibung |
---|---|
path_on_compute
|
Der Zielpfad auf dem Compute, unter dem die Daten zur Verfügung gestellt werden. Standardwert: None
|
Hinweise
Wenn das Dataset aus dem Pfad einer einzelnen Datei erstellt wird, ist der Bereitstellungspunkt der Pfad der einzelnen eingebundenen Datei. Andernfalls ist der Bereitstellungspunkt der Pfad des einschließenden Ordners für alle bereitgestellten Dateien.
Wenn path_on_compute mit einem / beginnt, wird er als absoluter Pfad behandelt. Wenn er nicht mit einem / beginnt, wird er als relativer Pfad relativ zum Arbeitsverzeichnis behandelt. Wenn Sie einen absoluten Pfad angegeben haben, stellen Sie sicher, dass der Auftrag über die Berechtigung zum Schreiben in dieses Verzeichnis verfügt.
Attribute
name
Der Name der Eingabe
Gibt zurück
Typ | Beschreibung |
---|---|
Der Name der Eingabe |