DatasetConsumptionConfig Classe
Representar como entregar o conjunto de dados para um destino de computação.
Representa como entregar o conjunto de dados para o destino de computação.
- Herança
-
builtins.objectDatasetConsumptionConfig
Construtor
DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)
Parâmetros
Nome | Description |
---|---|
name
Obrigatório
|
O nome do conjunto de dados na execução, que pode ser diferente do nome registrado. O nome é registrado como variável de ambiente e pode ser usado no plano de dados. |
dataset
Obrigatório
|
O conjunto de dados que será consumidos na execução. |
mode
|
Define a forma de entregar o conjunto de dados ao destino de computação. Há três modos:
Valor padrão: direct
|
path_on_compute
|
O caminho de destino na computação na qual disponibilizar os dados. A estrutura de pastas dos dados de origem é mantida, mas podemos adicionar prefixos a essa estrutura de pastas para evitar a colisão. Use Valor padrão: None
|
name
Obrigatório
|
O nome do conjunto de dados na execução, que pode ser diferente do nome registrado. O nome é registrado como variável de ambiente e pode ser usado no plano de dados. |
dataset
Obrigatório
|
Dataset ou
PipelineParameter ou
tuple(Workspace, str) ou
tuple(Workspace, str, str) ou
OutputDatasetConfig
O conjunto de dados a ser entregue, como um objeto De conjunto de dados, o Parâmetro de Pipeline que ingere um conjunto de dados, uma tupla de (workspace, nome do conjunto de dados) ou uma tupla de (workspace, nome do conjunto de dados, versão do conjunto de dados). Se apenas um nome for fornecido, o DatasetConsumptionConfig usará a versão mais recente do conjunto de dados. |
mode
Obrigatório
|
Define a forma de entregar o conjunto de dados ao destino de computação. Há três modos:
|
path_on_compute
Obrigatório
|
O caminho de destino na computação na qual disponibilizar os dados. A estrutura de pastas dos dados de origem é mantida, mas podemos adicionar prefixos a essa estrutura de pastas para evitar a colisão. É recomendável chamar tabular_dataset.to_path para ver a estrutura da pasta de saída. |
Métodos
as_download |
Definir o modo para download. Na execução enviada, os arquivos no conjunto de dados serão baixados para o caminho local no destino de computação. O local de download pode ser recuperado dos valores de argumento e do campo input_datasets do contexto de execução.
|
as_hdfs |
Definir o modo como hdfs. Na execução do synapse enviado, os arquivos nos conjuntos de dados serão convertidos em caminho local no destino de computação. O caminho hdfs pode ser recuperado dos valores de argumento e das variáveis de ambiente do sistema operacional.
|
as_mount |
Definir o modo para montagem. Na execução enviada, os arquivos do conjunto de dados são montados no caminho local no destino de computação. O ponto de montagem pode ser recuperado nos valores de argumento e no campo input_datasets do contexto de execução.
|
as_download
Definir o modo para download.
Na execução enviada, os arquivos no conjunto de dados serão baixados para o caminho local no destino de computação. O local de download pode ser recuperado dos valores de argumento e do campo input_datasets do contexto de execução.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Parâmetros
Nome | Description |
---|---|
path_on_compute
|
O caminho de destino na computação para disponibilizar os dados. Valor padrão: None
|
Comentários
Quando o conjunto de dados for criado no caminho de um único arquivo, o local de download será o caminho do único arquivo baixado. Caso contrário, o local de download será o caminho da pasta em anexo para todos os arquivos baixados.
Se path_on_compute começar com uma /, será tratado como caminho absoluto. Se não começar com uma /, será tratado como caminho relativo para o diretório de trabalho. Se você tiver especificado um caminho absoluto, verifique se o trabalho tem permissão para gravar nesse diretório.
as_hdfs
Definir o modo como hdfs.
Na execução do synapse enviado, os arquivos nos conjuntos de dados serão convertidos em caminho local no destino de computação. O caminho hdfs pode ser recuperado dos valores de argumento e das variáveis de ambiente do sistema operacional.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_1']
as_hdfs()
Comentários
Quando o conjunto de dados for criado com base no caminho de um só arquivo, o caminho do hdfs será o caminho do único arquivo. Caso contrário, o caminho hdfs será o caminho da pasta em anexo para todos os arquivos montados.
as_mount
Definir o modo para montagem.
Na execução enviada, os arquivos do conjunto de dados são montados no caminho local no destino de computação. O ponto de montagem pode ser recuperado nos valores de argumento e no campo input_datasets do contexto de execução.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Parâmetros
Nome | Description |
---|---|
path_on_compute
|
O caminho de destino na computação para disponibilizar os dados. Valor padrão: None
|
Comentários
Quando o conjunto de dados for criado no caminho de um único arquivo, o ponto de montagem será o caminho do único arquivo montado. Caso contrário, o ponto de montagem será o caminho da pasta em anexo para todos os arquivos montados.
Se path_on_compute começar com uma /, será tratado como caminho absoluto. Se não começar com uma /, será tratado como caminho relativo para o diretório de trabalho. Se você tiver especificado um caminho absoluto, verifique se o trabalho tem permissão para gravar nesse diretório.
Atributos
name
Nome da entrada.
Retornos
Tipo | Description |
---|---|
Nome da entrada. |