OutputFileDatasetConfig Classe
Represente como copiar o resultado de uma execução e ser promovido como fileDataset.
O OutputFileDatasetConfig permite-lhe especificar como pretende que um caminho local específico no destino de computação seja carregado para o destino especificado. Se não forem transmitidos argumentos ao construtor, geraremos automaticamente um nome, um destino e um caminho local.
Um exemplo de não transmitir argumentos:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Um exemplo de criação de uma saída e, em seguida, promover a saída para um conjunto de dados tabular e registá-lo com o nome foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Inicialize um OutputFileDatasetConfig.
O OutputFileDatasetConfig permite-lhe especificar como pretende que um caminho local específico no destino de computação seja carregado para o destino especificado. Se não forem transmitidos argumentos ao construtor, geraremos automaticamente um nome, um destino e um caminho local.
Um exemplo de não transmitir argumentos:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Um exemplo de criação de uma saída e, em seguida, promover a saída para um conjunto de dados tabular e registá-lo com o nome foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
- Herança
-
OutputFileDatasetConfigOutputFileDatasetConfig
Construtor
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Parâmetros
Name | Description |
---|---|
name
Necessário
|
O nome da saída específica para esta execução. Geralmente, isto é utilizado para fins de linhagem. Se estiver definido como Nenhum, geraremos automaticamente um nome. O nome também se tornará uma variável de ambiente que contém o caminho local onde pode escrever os seus ficheiros de saída e pastas para que serão carregados para o destino. |
destination
Necessário
|
O destino para o quais copiar a saída. Se estiver definido como Nenhum, copiaremos o resultado para o arquivo de dados workspaceblobstore, no caminho /dataset/{run-id}/{output-name}, em que run-id é o ID da Execução e o nome de saída é o nome de saída do parâmetro de nome acima. O destino é uma cadeia de identificação onde o primeiro item é o arquivo de dados e o segundo item é o caminho no arquivo de dados para o qual copiar os dados. O caminho no arquivo de dados pode ser um caminho de modelo. Um caminho de modelo é apenas um caminho normal, mas com marcadores de posição no interior. Esses marcadores de posição serão então resolvidos no momento adequado. A sintaxe dos marcadores de posição é {placeholder}, por exemplo, /path/with/{placeholder}. Atualmente, apenas são suportados dois marcadores de posição, {run-id} e {output-name}. |
source
Necessário
|
O caminho dentro do destino de computação para copiar os dados. Se estiver definido como Nenhum, vamos defini-lo como um diretório que criamos dentro do diretório temporário do SO do destino de computação. |
partition_format
Necessário
|
Especifique o formato de partição do caminho. Predefinições para Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. Formatar a parte "{column_name}" cria a coluna de cadeia e "{column_name:aaaa/MM/dd/HH/mm/ss}" cria a coluna datetime, em que "aaaa", "MM", "dd", "HH", "mm" e "ss" são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho ".. /Accounts/2019/01/01/data.parquet' onde a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia "Departamento" com o valor "Contas" e uma coluna datetime "PartitionDate" com o valor "2019-01-01". |
name
Necessário
|
O nome da saída específica para esta execução. Geralmente, isto é utilizado para fins de linhagem. Se estiver definido como Nenhum, geraremos automaticamente um nome. O nome também se tornará uma variável de ambiente que contém o caminho local onde pode escrever os seus ficheiros de saída e pastas para que serão carregados para o destino. |
destination
Necessário
|
O destino para o quais copiar a saída. Se estiver definido como Nenhum, copiaremos o resultado para o arquivo de dados workspaceblobstore, no caminho /dataset/{run-id}/{output-name}, em que run-id é o ID da Execução e o nome de saída é o nome de saída do parâmetro de nome acima. O destino é uma cadeia de identificação onde o primeiro item é o arquivo de dados e o segundo item é o caminho no arquivo de dados para o qual copiar os dados. O caminho no arquivo de dados pode ser um caminho de modelo. Um caminho de modelo é apenas um caminho normal, mas com marcadores de posição no interior. Esses marcadores de posição serão então resolvidos no momento adequado. A sintaxe dos marcadores de posição é {placeholder}, por exemplo, /path/with/{placeholder}. Atualmente, apenas são suportados dois marcadores de posição, {run-id} e {output-name}. |
source
Necessário
|
O caminho dentro do destino de computação para copiar os dados. Se estiver definido como Nenhum, vamos defini-lo como um diretório que criamos dentro do diretório temporário do SO do destino de computação. |
partition_format
Necessário
|
Especifique o formato de partição do caminho. Predefinições para Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. Formatar a parte "{column_name}" cria a coluna de cadeia e "{column_name:aaaa/MM/dd/HH/mm/ss}" cria a coluna datetime, em que "aaaa", "MM", "dd", "HH", "mm" e "ss" são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho ".. /Accounts/2019/01/01/data.parquet' onde a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia "Departamento" com o valor "Contas" e uma coluna datetime "PartitionDate" com o valor "2019-01-01". |
Observações
Pode transmitir OutputFileDatasetConfig como um argumento para a sua execução e será automaticamente traduzido para o caminho local na computação. O argumento de origem será utilizado se for especificado um, caso contrário, geraremos automaticamente um diretório na pasta temporária do SO. Os ficheiros e pastas no diretório de origem serão copiados para o destino com base na configuração de saída.
Por predefinição, o modo pelo qual o resultado será copiado para o armazenamento de destino será definido como montado. Para obter mais informações sobre o modo de montagem, consulte a documentação para as_mount.
Métodos
as_input |
Especifique como consumir a saída como entrada nos passos subsequentes do pipeline. |
as_mount |
Defina o modo de saída a montar. Para o modo de montagem, o diretório de saída será um diretório montado FUSE. Os ficheiros escritos no diretório montado serão carregados quando o ficheiro for fechado. |
as_upload |
Defina o modo de saída para carregar. Para o modo de carregamento, os ficheiros escritos no diretório de saída serão carregados no final da tarefa. Se a tarefa falhar ou for cancelada, o diretório de saída não será carregado. |
as_input
Especifique como consumir a saída como entrada nos passos subsequentes do pipeline.
as_input(name=None)
Parâmetros
Name | Description |
---|---|
name
Necessário
|
O nome da entrada específica da execução. |
Devoluções
Tipo | Description |
---|---|
Uma DatasetConsumptionConfig instância que descreve como entregar os dados de entrada. |
as_mount
Defina o modo de saída a montar.
Para o modo de montagem, o diretório de saída será um diretório montado FUSE. Os ficheiros escritos no diretório montado serão carregados quando o ficheiro for fechado.
as_mount(disable_metadata_cache=False)
Parâmetros
Name | Description |
---|---|
disable_metadata_cache
Necessário
|
Se pretende colocar metadados em cache no nó local, se estiver desativado, um nó não conseguirá ver ficheiros gerados a partir de outros nós durante a execução da tarefa. |
Devoluções
Tipo | Description |
---|---|
Uma OutputFileDatasetConfig instância com o modo definido como montagem. |
as_upload
Defina o modo de saída para carregar.
Para o modo de carregamento, os ficheiros escritos no diretório de saída serão carregados no final da tarefa. Se a tarefa falhar ou for cancelada, o diretório de saída não será carregado.
as_upload(overwrite=False, source_globs=None)
Parâmetros
Name | Description |
---|---|
overwrite
Necessário
|
Se pretende substituir ficheiros que já existem no destino. |
source_globs
Necessário
|
Padrões glob utilizados para filtrar ficheiros que serão carregados. |
Devoluções
Tipo | Description |
---|---|
Uma OutputFileDatasetConfig instância com o modo definido para carregar. |