DatasetConsumptionConfig Classe
Rappresentare come distribuire il set di dati a una destinazione di calcolo.
Rappresentare come recapitare il set di dati alla destinazione di calcolo.
- Ereditarietà
-
builtins.objectDatasetConsumptionConfig
Costruttore
DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)
Parametri
Nome | Descrizione |
---|---|
name
Necessario
|
Nome del set di dati nell'esecuzione, che può essere diverso dal nome registrato. Il nome verrà registrato come variabile di ambiente e può essere usato nel piano dati. |
dataset
Necessario
|
Set di dati che verrà utilizzato nell'esecuzione. |
mode
|
Definisce il modo in cui il set di dati deve essere recapitato alla destinazione di calcolo. Esistono tre modalità:
Valore predefinito: direct
|
path_on_compute
|
Percorso di destinazione nel calcolo in cui rendere disponibili i dati. La struttura di cartelle dei dati di origine verrà mantenuta, tuttavia, è possibile aggiungere prefissi a questa struttura di cartelle per evitare conflitti. Usare Valore predefinito: None
|
name
Necessario
|
Nome del set di dati nell'esecuzione, che può essere diverso dal nome registrato. Il nome verrà registrato come variabile di ambiente e può essere usato nel piano dati. |
dataset
Necessario
|
Dataset oppure
PipelineParameter oppure
tuple(Workspace, str) oppure
tuple(Workspace, str, str) oppure
OutputDatasetConfig
Set di dati da recapitare, come oggetto Dataset, Parametro pipeline che inserisce un set di dati, una tupla di (area di lavoro, nome set di dati) o una tupla di (area di lavoro, nome set di dati, versione del set di dati). Se viene specificato solo un nome, DatasetConsumptionConfig userà la versione più recente del set di dati. |
mode
Necessario
|
Definisce il modo in cui il set di dati deve essere recapitato alla destinazione di calcolo. Esistono tre modalità:
|
path_on_compute
Necessario
|
Percorso di destinazione nel calcolo in cui rendere disponibili i dati. La struttura di cartelle dei dati di origine verrà mantenuta, tuttavia, è possibile aggiungere prefissi a questa struttura di cartelle per evitare conflitti. È consigliabile chiamare tabular_dataset.to_path per visualizzare la struttura della cartella di output. |
Metodi
as_download |
Impostare la modalità da scaricare. Nell'esecuzione inviata i file nel set di dati verranno scaricati nel percorso locale nella destinazione di calcolo. Il percorso di download può essere recuperato dai valori degli argomenti e dal campo input_datasets del contesto di esecuzione.
|
as_hdfs |
Impostare la modalità su hdfs. Nell'esecuzione di synapse inviata i file nei set di dati verranno convertiti nel percorso locale nella destinazione di calcolo. Il percorso hdfs può essere recuperato dai valori degli argomenti e dalle variabili di ambiente del sistema operativo.
|
as_mount |
Impostare la modalità di montaggio. Nell'esecuzione inviata i file nei set di dati verranno montati nel percorso locale nella destinazione di calcolo. Il punto di montaggio può essere recuperato dai valori degli argomenti e dal campo input_datasets del contesto di esecuzione.
|
as_download
Impostare la modalità da scaricare.
Nell'esecuzione inviata i file nel set di dati verranno scaricati nel percorso locale nella destinazione di calcolo. Il percorso di download può essere recuperato dai valori degli argomenti e dal campo input_datasets del contesto di esecuzione.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Parametri
Nome | Descrizione |
---|---|
path_on_compute
|
Percorso di destinazione nel calcolo in cui rendere disponibili i dati. Valore predefinito: None
|
Commenti
Quando il set di dati viene creato dal percorso di un singolo file, il percorso di download sarà il percorso del singolo file scaricato. In caso contrario, il percorso di download sarà il percorso della cartella di inclusione per tutti i file scaricati.
Se path_on_compute inizia con un oggetto /, verrà considerato come un percorso assoluto. Se non inizia con un oggetto /, verrà considerato come un percorso relativo rispetto alla directory di lavoro. Se è stato specificato un percorso assoluto, assicurarsi che il processo disponga dell'autorizzazione per la scrittura in tale directory.
as_hdfs
Impostare la modalità su hdfs.
Nell'esecuzione di synapse inviata i file nei set di dati verranno convertiti nel percorso locale nella destinazione di calcolo. Il percorso hdfs può essere recuperato dai valori degli argomenti e dalle variabili di ambiente del sistema operativo.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_1']
as_hdfs()
Commenti
Quando il set di dati viene creato dal percorso di un singolo file, il percorso hdfs sarà il percorso del singolo file. In caso contrario, il percorso hdfs sarà il percorso della cartella di inclusione per tutti i file montati.
as_mount
Impostare la modalità di montaggio.
Nell'esecuzione inviata i file nei set di dati verranno montati nel percorso locale nella destinazione di calcolo. Il punto di montaggio può essere recuperato dai valori degli argomenti e dal campo input_datasets del contesto di esecuzione.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Parametri
Nome | Descrizione |
---|---|
path_on_compute
|
Percorso di destinazione nel calcolo in cui rendere disponibili i dati. Valore predefinito: None
|
Commenti
Quando il set di dati viene creato dal percorso di un singolo file, il punto di montaggio sarà il percorso del singolo file montato. In caso contrario, il punto di montaggio sarà il percorso della cartella di inclusione per tutti i file montati.
Se path_on_compute inizia con un oggetto /, verrà considerato come un percorso assoluto. Se non inizia con un oggetto /, verrà considerato come un percorso relativo rispetto alla directory di lavoro. Se è stato specificato un percorso assoluto, assicurarsi che il processo disponga dell'autorizzazione per la scrittura in tale directory.
Attributi
name
Nome dell'input.
Restituisce
Tipo | Descrizione |
---|---|
Nome dell'input. |