DatasetConsumptionConfig Klasse

Referenz

Stellt dar, wie das Dataset an ein Computeziel zu übermitteln ist.

Gibt an, wie das Dataset an das Computeziel übermittelt wird.

Vererbung: builtins.object

DatasetConsumptionConfig

Konstruktor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parameter

Name	Beschreibung
name Erforderlich	str Der Name des Datasets in der Ausführung, der sich vom registrierten Namen unterscheiden kann. Der Name wird als Umgebungsvariable registriert und kann auf Datenebene verwendet werden.
dataset Erforderlich	AbstractDataset oder PipelineParameter oder OutputDatasetConfig Das Dataset, das in der Ausführung verwendet wird.
mode	str Der Modus, in dem das Dataset an das Computeziel übermittelt werden soll. Es gibt drei Modi: „direkt“: Das Dataset als Dataset verwenden. „download“: Das Dataset herunterladen und als heruntergeladenen Pfad nutzen. „einbinden“: Das Dataset einbinden und als eingebundenen Pfad nutzen. "hdfs": Nutzen Sie das Dataset aus dem aufgelösten HDFS-Pfad (derzeit nur für SynapseSpark-Compute unterstützt). Standardwert: direct
path_on_compute	str Der Zielpfad auf dem Compute, unter dem die Daten zur Verfügung gestellt werden. Die Ordnerstruktur der Quelldaten wird beibehalten. Es könnten dieser Ordnerstruktur jedoch Präfixe hinzugefügt werden, damit Konflikte vermieden werden können. Verwenden Sie `tabular_dataset.to_path`, um die Struktur des Ausgabeordners anzuzeigen. Standardwert: None
name Erforderlich	str Der Name des Datasets in der Ausführung, der sich vom registrierten Namen unterscheiden kann. Der Name wird als Umgebungsvariable registriert und kann auf Datenebene verwendet werden.
dataset Erforderlich	Dataset oder PipelineParameter oder tuple(Workspace, str) oder tuple(Workspace, str, str) oder OutputDatasetConfig Das zu liefernde Dataset als Datasetobjekt, Pipelineparameter, das ein Dataset, ein Tupel von (Arbeitsbereich, Datasetname) oder ein Tupel von (Arbeitsbereich, Datasetname, Datasetversion) erfasst. Wenn nur ein Name angegeben wird, verwendet DatasetConsumptionConfig die neueste Version des Datasets.
mode Erforderlich	str Der Modus, in dem das Dataset an das Computeziel übermittelt werden soll. Es gibt drei Modi: „direkt“: Das Dataset als Dataset verwenden. „download“: Das Dataset herunterladen und als heruntergeladenen Pfad nutzen. „einbinden“: Das Dataset einbinden und als eingebundenen Pfad nutzen. "hdfs": Nutzen Sie das Dataset aus dem aufgelösten HDFS-Pfad (derzeit nur für SynapseSpark-Compute unterstützt).
path_on_compute Erforderlich	str Der Zielpfad auf dem Compute, unter dem die Daten zur Verfügung gestellt werden. Die Ordnerstruktur der Quelldaten wird beibehalten. Es könnten dieser Ordnerstruktur jedoch Präfixe hinzugefügt werden, damit Konflikte vermieden werden können. Es wird empfohlen , tabular_dataset.to_path aufzurufen, um die Struktur des Ausgabeordners anzuzeigen.

Methoden

as_download

Den Modus auf „download“ setzen.

Bei der übermittelten Ausführung werden Dateien im Dataset in den lokalen Pfad auf dem Computeziel heruntergeladen. Der Downloadspeicherort kann aus Argumentwerten und dem input_datasets-Feld des Ausführungskontexts abgerufen werden.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_hdfs

Legen Sie den Modus auf hdfs fest.

Bei der übermittelten Synapse-Ausführung werden Dateien in den Datasets in den lokalen Pfad auf dem Computeziel konvertiert. Der HDFS-Pfad kann aus Argumentwerten und den Betriebssystemumgebungsvariablen abgerufen werden.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_mount

Den Modus auf „mount“ setzen.

Bei der übermittelten Ausführung werden Dateien in den Datasets in den lokalen Pfad auf dem Computeziel eingebunden. Der Bereitstellungspunkt kann aus Argumentwerten und dem input_datasets-Feld des Ausführungskontexts abgerufen werden.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Den Modus auf „download“ setzen.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_download(path_on_compute=None)

Parameter

Name	Beschreibung
path_on_compute	str Der Zielpfad auf dem Compute, unter dem die Daten zur Verfügung gestellt werden. Standardwert: None

Hinweise

Wenn das Dataset aus dem Pfad einer einzelnen Datei erstellt wird, ist der Downloadspeicherort der Pfad der einzelnen heruntergeladenen Datei. Andernfalls ist der Downloadspeicherort der Pfad des umschließenden Ordners für alle heruntergeladenen Dateien.

Wenn path_on_compute mit einem / beginnt, wird er als absoluter Pfad behandelt. Wenn er nicht mit einem / beginnt, wird er als relativer Pfad relativ zum Arbeitsverzeichnis behandelt. Wenn Sie einen absoluten Pfad angegeben haben, stellen Sie sicher, dass der Auftrag über die Berechtigung zum Schreiben in dieses Verzeichnis verfügt.

as_hdfs

Legen Sie den Modus auf hdfs fest.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_hdfs()

Hinweise

Wenn das Dataset aus dem Pfad einer einzelnen Datei erstellt wird, ist der HDFS-Pfad der Pfad der einzelnen Datei. Andernfalls ist der HDFS-Pfad der Pfad des einschließenden Ordners für alle eingebundenen Dateien.

as_mount

Den Modus auf „mount“ setzen.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_mount(path_on_compute=None)

Parameter

Name	Beschreibung
path_on_compute	str Der Zielpfad auf dem Compute, unter dem die Daten zur Verfügung gestellt werden. Standardwert: None

Hinweise

Wenn das Dataset aus dem Pfad einer einzelnen Datei erstellt wird, ist der Bereitstellungspunkt der Pfad der einzelnen eingebundenen Datei. Andernfalls ist der Bereitstellungspunkt der Pfad des einschließenden Ordners für alle bereitgestellten Dateien.

Attribute

name

Der Name der Eingabe

Gibt zurück

Typ	Beschreibung
	Der Name der Eingabe

Freigeben über

DatasetConsumptionConfig Klasse

Konstruktor

Parameter

Methoden

as_download

Parameter

Hinweise

as_hdfs

Hinweise

as_mount

Parameter

Hinweise

Attribute

name

Gibt zurück

Feedback

Zusätzliche Ressourcen