Condividi tramite


DatasetConsumptionConfig Classe

Rappresentare come distribuire il set di dati a una destinazione di calcolo.

Rappresentare come recapitare il set di dati alla destinazione di calcolo.

Ereditarietà
builtins.object
DatasetConsumptionConfig

Costruttore

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parametri

Nome Descrizione
name
Necessario
str

Nome del set di dati nell'esecuzione, che può essere diverso dal nome registrato. Il nome verrà registrato come variabile di ambiente e può essere usato nel piano dati.

dataset
Necessario

Set di dati che verrà utilizzato nell'esecuzione.

mode
str

Definisce il modo in cui il set di dati deve essere recapitato alla destinazione di calcolo. Esistono tre modalità:

  1. 'direct': usare il set di dati come set di dati.
  2. 'download': scaricare il set di dati e usare il set di dati come percorso scaricato.
  3. 'mount': montare il set di dati e usare il set di dati come percorso di montaggio.
  4. 'hdfs': usare il set di dati dal percorso hdfs risolto (attualmente supportato solo nel calcolo SynapseSpark).
Valore predefinito: direct
path_on_compute
str

Percorso di destinazione nel calcolo in cui rendere disponibili i dati. La struttura di cartelle dei dati di origine verrà mantenuta, tuttavia, è possibile aggiungere prefissi a questa struttura di cartelle per evitare conflitti. Usare tabular_dataset.to_path per visualizzare la struttura delle cartelle di output.

Valore predefinito: None
name
Necessario
str

Nome del set di dati nell'esecuzione, che può essere diverso dal nome registrato. Il nome verrà registrato come variabile di ambiente e può essere usato nel piano dati.

dataset
Necessario

Set di dati da recapitare, come oggetto Dataset, Parametro pipeline che inserisce un set di dati, una tupla di (area di lavoro, nome set di dati) o una tupla di (area di lavoro, nome set di dati, versione del set di dati). Se viene specificato solo un nome, DatasetConsumptionConfig userà la versione più recente del set di dati.

mode
Necessario
str

Definisce il modo in cui il set di dati deve essere recapitato alla destinazione di calcolo. Esistono tre modalità:

  1. 'direct': usare il set di dati come set di dati.
  2. 'download': scaricare il set di dati e usare il set di dati come percorso scaricato.
  3. 'mount': montare il set di dati e usare il set di dati come percorso di montaggio.
  4. 'hdfs': usare il set di dati dal percorso hdfs risolto (attualmente supportato solo nel calcolo SynapseSpark).
path_on_compute
Necessario
str

Percorso di destinazione nel calcolo in cui rendere disponibili i dati. La struttura di cartelle dei dati di origine verrà mantenuta, tuttavia, è possibile aggiungere prefissi a questa struttura di cartelle per evitare conflitti. È consigliabile chiamare tabular_dataset.to_path per visualizzare la struttura della cartella di output.

Metodi

as_download

Impostare la modalità da scaricare.

Nell'esecuzione inviata i file nel set di dati verranno scaricati nel percorso locale nella destinazione di calcolo. Il percorso di download può essere recuperato dai valori degli argomenti e dal campo input_datasets del contesto di esecuzione.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Impostare la modalità su hdfs.

Nell'esecuzione di synapse inviata i file nei set di dati verranno convertiti nel percorso locale nella destinazione di calcolo. Il percorso hdfs può essere recuperato dai valori degli argomenti e dalle variabili di ambiente del sistema operativo.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_mount

Impostare la modalità di montaggio.

Nell'esecuzione inviata i file nei set di dati verranno montati nel percorso locale nella destinazione di calcolo. Il punto di montaggio può essere recuperato dai valori degli argomenti e dal campo input_datasets del contesto di esecuzione.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Impostare la modalità da scaricare.

Nell'esecuzione inviata i file nel set di dati verranno scaricati nel percorso locale nella destinazione di calcolo. Il percorso di download può essere recuperato dai valori degli argomenti e dal campo input_datasets del contesto di esecuzione.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parametri

Nome Descrizione
path_on_compute
str

Percorso di destinazione nel calcolo in cui rendere disponibili i dati.

Valore predefinito: None

Commenti

Quando il set di dati viene creato dal percorso di un singolo file, il percorso di download sarà il percorso del singolo file scaricato. In caso contrario, il percorso di download sarà il percorso della cartella di inclusione per tutti i file scaricati.

Se path_on_compute inizia con un oggetto /, verrà considerato come un percorso assoluto. Se non inizia con un oggetto /, verrà considerato come un percorso relativo rispetto alla directory di lavoro. Se è stato specificato un percorso assoluto, assicurarsi che il processo disponga dell'autorizzazione per la scrittura in tale directory.

as_hdfs

Impostare la modalità su hdfs.

Nell'esecuzione di synapse inviata i file nei set di dati verranno convertiti nel percorso locale nella destinazione di calcolo. Il percorso hdfs può essere recuperato dai valori degli argomenti e dalle variabili di ambiente del sistema operativo.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_hdfs()

Commenti

Quando il set di dati viene creato dal percorso di un singolo file, il percorso hdfs sarà il percorso del singolo file. In caso contrario, il percorso hdfs sarà il percorso della cartella di inclusione per tutti i file montati.

as_mount

Impostare la modalità di montaggio.

Nell'esecuzione inviata i file nei set di dati verranno montati nel percorso locale nella destinazione di calcolo. Il punto di montaggio può essere recuperato dai valori degli argomenti e dal campo input_datasets del contesto di esecuzione.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parametri

Nome Descrizione
path_on_compute
str

Percorso di destinazione nel calcolo in cui rendere disponibili i dati.

Valore predefinito: None

Commenti

Quando il set di dati viene creato dal percorso di un singolo file, il punto di montaggio sarà il percorso del singolo file montato. In caso contrario, il punto di montaggio sarà il percorso della cartella di inclusione per tutti i file montati.

Se path_on_compute inizia con un oggetto /, verrà considerato come un percorso assoluto. Se non inizia con un oggetto /, verrà considerato come un percorso relativo rispetto alla directory di lavoro. Se è stato specificato un percorso assoluto, assicurarsi che il processo disponga dell'autorizzazione per la scrittura in tale directory.

Attributi

name

Nome dell'input.

Restituisce

Tipo Descrizione

Nome dell'input.