OutputFileDatasetConfig 類別
表示如何複製執行的輸出,並升階為 FileDataset。
OutputFileDatasetConfig 可讓您指定如何將計算目標上的特定本機路徑上傳至指定的目的地。 如果未將任何引數傳遞至建構函式,我們將會自動產生名稱、目的地和本機路徑。
未傳遞任何引數的範例:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
建立輸出的範例,然後將輸出升階為表格式資料集,並以名稱 foo 註冊:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
初始化 OutputFileDatasetConfig。
OutputFileDatasetConfig 可讓您指定如何將計算目標上的特定本機路徑上傳至指定的目的地。 如果未將任何引數傳遞至建構函式,我們將會自動產生名稱、目的地和本機路徑。
未傳遞任何引數的範例:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
建立輸出的範例,然後將輸出升階為表格式資料集,並以名稱 foo 註冊:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
- 繼承
-
OutputFileDatasetConfigOutputFileDatasetConfig
建構函式
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
參數
名稱 | Description |
---|---|
name
必要
|
此執行特有的輸出名稱。 這通常用於譜系用途。 如果設定為 None,我們將會自動產生名稱。 此名稱也會成為環境變數,其中包含的本機路徑,您可以在其中將輸出檔案和資料夾寫入目的地。 |
destination
必要
|
要複製輸出的目標 。 如果設定為 None,我們會將輸出複製到 workspaceblobstore 資料存放區的資料存放區,路徑 /dataset/{run-id}/{output-name},其中 run-id 是 Run 的識別碼,而 output-name 是上述 name 參數的輸出名稱。 目的地是 Tuple,其中第一個專案是資料存放區,而第二個專案是資料存放區內要複製資料的路徑。 資料存放區中的路徑可以是範本路徑。 範本路徑只是一般路徑,但內含預留位置。 然後,這些預留位置會在適當時間解析。 預留位置的語法是 {預留位置},例如 /path/with/{預留位置}。 目前僅支援兩個預留位置,{run-id} 和 {output-name}。 |
source
必要
|
要從中複製資料之計算目標內的路徑。 如果設定為 [無],我們會將此設定為我們在計算目標 OS 臨時目錄內建立的目錄。 |
partition_format
必要
|
指定路徑的資料分割格式。 預設值為 [無]。 每個路徑的資料分割資訊都會根據指定的格式擷取到資料行中。 格式元件 '{column_name}' 會建立字串資料行,而 '{column_name:yyyy/MM/dd/HH/mm/ss}' 會建立 datetime 資料行,其中 'yyyy'、'MM'、'dd'、'HH'、'mm' 和 'ss' 用來擷取日期時間類型的年、月、日、小時、分鐘和秒。 格式應該從第一個分割區索引鍵的位置開始,直到檔案路徑的結尾為止。 例如,指定路徑 '.。/Accounts/2019/01/01/data.parquet',其中分割區是依部門名稱和時間,partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' 會建立字串資料行 'Department',其值為 'Accounts' 和日期時間資料行 'PartitionDate',其值為 '2019-01-01'。 |
name
必要
|
此執行特有的輸出名稱。 這通常用於譜系用途。 如果設定為 None,我們將會自動產生名稱。 此名稱也會成為環境變數,其中包含的本機路徑,您可以在其中將輸出檔案和資料夾寫入目的地。 |
destination
必要
|
要複製輸出的目標 。 如果設定為 None,我們會將輸出複製到 workspaceblobstore 資料存放區的資料存放區,路徑 /dataset/{run-id}/{output-name},其中 run-id 是 Run 的識別碼,而 output-name 是上述 name 參數的輸出名稱。 目的地是 Tuple,其中第一個專案是資料存放區,而第二個專案是資料存放區內要複製資料的路徑。 資料存放區中的路徑可以是範本路徑。 範本路徑只是一般路徑,但內含預留位置。 然後,這些預留位置會在適當時間解析。 預留位置的語法是 {預留位置},例如 /path/with/{預留位置}。 目前僅支援兩個預留位置,{run-id} 和 {output-name}。 |
source
必要
|
要從中複製資料之計算目標內的路徑。 如果設定為 [無],我們會將此設定為我們在計算目標 OS 臨時目錄內建立的目錄。 |
partition_format
必要
|
指定路徑的資料分割格式。 預設值為 [無]。 每個路徑的資料分割資訊都會根據指定的格式擷取到資料行中。 格式元件 '{column_name}' 會建立字串資料行,而 '{column_name:yyyy/MM/dd/HH/mm/ss}' 會建立 datetime 資料行,其中 'yyyy'、'MM'、'dd'、'HH'、'mm' 和 'ss' 用來擷取日期時間類型的年、月、日、小時、分鐘和秒。 格式應該從第一個分割區索引鍵的位置開始,直到檔案路徑的結尾為止。 例如,指定路徑 '.。/Accounts/2019/01/01/data.parquet',其中分割區是依部門名稱和時間,partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' 會建立字串資料行 'Department',其值為 'Accounts' 和日期時間資料行 'PartitionDate',其值為 '2019-01-01'。 |
備註
您可以將 OutputFileDatasetConfig 當做引數傳遞至您的執行,而且它會自動轉譯為計算上的本機路徑。 如果指定來源引數,則會使用,否則我們會在 OS 的暫存資料夾中自動產生目錄。 然後,來原始目錄內的檔案和資料夾會根據輸出組態複製到目的地。
根據預設,輸出將複製到目的地儲存體的模式會設定為掛接。 如需掛接模式的詳細資訊,請參閱as_mount的檔。
方法
as_input |
指定如何在後續管線步驟中使用輸出作為輸入。 |
as_mount |
設定要掛接的輸出模式。 針對掛接模式,輸出目錄將會是 FUSE 掛接的目錄。 當檔案關閉時,將會上傳寫入掛接目錄的檔案。 |
as_upload |
設定要上傳之輸出的模式。 針對上傳模式,寫入輸出目錄的檔案將會在作業結束時上傳。 如果作業失敗或取消,則不會上傳輸出目錄。 |
as_input
指定如何在後續管線步驟中使用輸出作為輸入。
as_input(name=None)
參數
名稱 | Description |
---|---|
name
必要
|
執行特定的輸入名稱。 |
傳回
類型 | Description |
---|---|
實例 DatasetConsumptionConfig ,描述如何傳遞輸入資料。 |
as_mount
設定要掛接的輸出模式。
針對掛接模式,輸出目錄將會是 FUSE 掛接的目錄。 當檔案關閉時,將會上傳寫入掛接目錄的檔案。
as_mount(disable_metadata_cache=False)
參數
名稱 | Description |
---|---|
disable_metadata_cache
必要
|
如果停用節點,是否要在本機節點中快取中繼資料,將無法在作業執行期間看到從其他節點產生的檔案。 |
傳回
類型 | Description |
---|---|
OutputFileDatasetConfig實例,其模式設定為掛接。 |
as_upload
設定要上傳之輸出的模式。
針對上傳模式,寫入輸出目錄的檔案將會在作業結束時上傳。 如果作業失敗或取消,則不會上傳輸出目錄。
as_upload(overwrite=False, source_globs=None)
參數
名稱 | Description |
---|---|
overwrite
必要
|
是否覆寫目的地中已經存在的檔案。 |
source_globs
必要
|
用來篩選要上傳之檔案的 Glob 模式。 |
傳回
類型 | Description |
---|---|
OutputFileDatasetConfig實例,其模式設定為上傳。 |