Freigeben über


DatasetConsumptionConfig Klasse

Stellt dar, wie das Dataset an ein Computeziel zu übermitteln ist.

Gibt an, wie das Dataset an das Computeziel übermittelt wird.

Vererbung
builtins.object
DatasetConsumptionConfig

Konstruktor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parameter

Name Beschreibung
name
Erforderlich
str

Der Name des Datasets in der Ausführung, der sich vom registrierten Namen unterscheiden kann. Der Name wird als Umgebungsvariable registriert und kann auf Datenebene verwendet werden.

dataset
Erforderlich

Das Dataset, das in der Ausführung verwendet wird.

mode
str

Der Modus, in dem das Dataset an das Computeziel übermittelt werden soll. Es gibt drei Modi:

  1. „direkt“: Das Dataset als Dataset verwenden.
  2. „download“: Das Dataset herunterladen und als heruntergeladenen Pfad nutzen.
  3. „einbinden“: Das Dataset einbinden und als eingebundenen Pfad nutzen.
  4. "hdfs": Nutzen Sie das Dataset aus dem aufgelösten HDFS-Pfad (derzeit nur für SynapseSpark-Compute unterstützt).
Standardwert: direct
path_on_compute
str

Der Zielpfad auf dem Compute, unter dem die Daten zur Verfügung gestellt werden. Die Ordnerstruktur der Quelldaten wird beibehalten. Es könnten dieser Ordnerstruktur jedoch Präfixe hinzugefügt werden, damit Konflikte vermieden werden können. Verwenden Sie tabular_dataset.to_path, um die Struktur des Ausgabeordners anzuzeigen.

Standardwert: None
name
Erforderlich
str

Der Name des Datasets in der Ausführung, der sich vom registrierten Namen unterscheiden kann. Der Name wird als Umgebungsvariable registriert und kann auf Datenebene verwendet werden.

dataset
Erforderlich

Das zu liefernde Dataset als Datasetobjekt, Pipelineparameter, das ein Dataset, ein Tupel von (Arbeitsbereich, Datasetname) oder ein Tupel von (Arbeitsbereich, Datasetname, Datasetversion) erfasst. Wenn nur ein Name angegeben wird, verwendet DatasetConsumptionConfig die neueste Version des Datasets.

mode
Erforderlich
str

Der Modus, in dem das Dataset an das Computeziel übermittelt werden soll. Es gibt drei Modi:

  1. „direkt“: Das Dataset als Dataset verwenden.
  2. „download“: Das Dataset herunterladen und als heruntergeladenen Pfad nutzen.
  3. „einbinden“: Das Dataset einbinden und als eingebundenen Pfad nutzen.
  4. "hdfs": Nutzen Sie das Dataset aus dem aufgelösten HDFS-Pfad (derzeit nur für SynapseSpark-Compute unterstützt).
path_on_compute
Erforderlich
str

Der Zielpfad auf dem Compute, unter dem die Daten zur Verfügung gestellt werden. Die Ordnerstruktur der Quelldaten wird beibehalten. Es könnten dieser Ordnerstruktur jedoch Präfixe hinzugefügt werden, damit Konflikte vermieden werden können. Es wird empfohlen , tabular_dataset.to_path aufzurufen, um die Struktur des Ausgabeordners anzuzeigen.

Methoden

as_download

Den Modus auf „download“ setzen.

Bei der übermittelten Ausführung werden Dateien im Dataset in den lokalen Pfad auf dem Computeziel heruntergeladen. Der Downloadspeicherort kann aus Argumentwerten und dem input_datasets-Feld des Ausführungskontexts abgerufen werden.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Legen Sie den Modus auf hdfs fest.

Bei der übermittelten Synapse-Ausführung werden Dateien in den Datasets in den lokalen Pfad auf dem Computeziel konvertiert. Der HDFS-Pfad kann aus Argumentwerten und den Betriebssystemumgebungsvariablen abgerufen werden.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_mount

Den Modus auf „mount“ setzen.

Bei der übermittelten Ausführung werden Dateien in den Datasets in den lokalen Pfad auf dem Computeziel eingebunden. Der Bereitstellungspunkt kann aus Argumentwerten und dem input_datasets-Feld des Ausführungskontexts abgerufen werden.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Den Modus auf „download“ setzen.

Bei der übermittelten Ausführung werden Dateien im Dataset in den lokalen Pfad auf dem Computeziel heruntergeladen. Der Downloadspeicherort kann aus Argumentwerten und dem input_datasets-Feld des Ausführungskontexts abgerufen werden.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parameter

Name Beschreibung
path_on_compute
str

Der Zielpfad auf dem Compute, unter dem die Daten zur Verfügung gestellt werden.

Standardwert: None

Hinweise

Wenn das Dataset aus dem Pfad einer einzelnen Datei erstellt wird, ist der Downloadspeicherort der Pfad der einzelnen heruntergeladenen Datei. Andernfalls ist der Downloadspeicherort der Pfad des umschließenden Ordners für alle heruntergeladenen Dateien.

Wenn path_on_compute mit einem / beginnt, wird er als absoluter Pfad behandelt. Wenn er nicht mit einem / beginnt, wird er als relativer Pfad relativ zum Arbeitsverzeichnis behandelt. Wenn Sie einen absoluten Pfad angegeben haben, stellen Sie sicher, dass der Auftrag über die Berechtigung zum Schreiben in dieses Verzeichnis verfügt.

as_hdfs

Legen Sie den Modus auf hdfs fest.

Bei der übermittelten Synapse-Ausführung werden Dateien in den Datasets in den lokalen Pfad auf dem Computeziel konvertiert. Der HDFS-Pfad kann aus Argumentwerten und den Betriebssystemumgebungsvariablen abgerufen werden.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_hdfs()

Hinweise

Wenn das Dataset aus dem Pfad einer einzelnen Datei erstellt wird, ist der HDFS-Pfad der Pfad der einzelnen Datei. Andernfalls ist der HDFS-Pfad der Pfad des einschließenden Ordners für alle eingebundenen Dateien.

as_mount

Den Modus auf „mount“ setzen.

Bei der übermittelten Ausführung werden Dateien in den Datasets in den lokalen Pfad auf dem Computeziel eingebunden. Der Bereitstellungspunkt kann aus Argumentwerten und dem input_datasets-Feld des Ausführungskontexts abgerufen werden.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parameter

Name Beschreibung
path_on_compute
str

Der Zielpfad auf dem Compute, unter dem die Daten zur Verfügung gestellt werden.

Standardwert: None

Hinweise

Wenn das Dataset aus dem Pfad einer einzelnen Datei erstellt wird, ist der Bereitstellungspunkt der Pfad der einzelnen eingebundenen Datei. Andernfalls ist der Bereitstellungspunkt der Pfad des einschließenden Ordners für alle bereitgestellten Dateien.

Wenn path_on_compute mit einem / beginnt, wird er als absoluter Pfad behandelt. Wenn er nicht mit einem / beginnt, wird er als relativer Pfad relativ zum Arbeitsverzeichnis behandelt. Wenn Sie einen absoluten Pfad angegeben haben, stellen Sie sicher, dass der Auftrag über die Berechtigung zum Schreiben in dieses Verzeichnis verfügt.

Attribute

name

Der Name der Eingabe

Gibt zurück

Typ Beschreibung

Der Name der Eingabe