OutputFileDatasetConfig 類別

參考

表示如何複製回合的輸出，並將其升級為 FileDataset。

OutputFileDatasetConfig 可讓您指定如何將計算目標上的特定本機路徑上傳至指定的目的地。如果未將自變數傳遞至建構函式，我們會自動產生名稱、目的地和本機路徑。

未傳遞任何自變數的範例：


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

建立輸出的範例，然後將輸出升階為表格式數據集，並以名稱 foo 註冊：


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

初始化 OutputFileDatasetConfig。

OutputFileDatasetConfig 可讓您指定如何將計算目標上的特定本機路徑上傳至指定的目的地。如果未將任何自變數傳遞至建構函式，我們將會自動產生名稱、目的地和本機路徑。

未傳遞任何自變數的範例：


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

建立輸出的範例，然後將輸出升階為表格式數據集，並以名稱 foo 註冊：


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

繼承: OutputDatasetConfig

OutputFileDatasetConfig

TransformationMixin

OutputFileDatasetConfig

建構函式

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

參數

名稱	Description
name 必要	str 這個執行專屬的輸出名稱。這通常用於譜系用途。如果設定為 [無]，我們會自動產生名稱。名稱也會變成環境變數，其中包含的本機路徑，您可以在其中將輸出檔案和資料夾寫入目的地。
destination 必要	tuple 要複製輸出的目標。如果設定為 [無]，我們會將輸出複製到 workspaceblobstore 數據存放區的數據存放區，其路徑 /dataset/{run-id}/{output-name}，其中 run-id 是 Run 的標識符，而 output-name 是上述 name 參數的輸出名稱。目的地是 Tuple，其中第一個專案是數據存放區，而第二個專案是數據存放區內要複製數據的路徑。數據存放區中的路徑可以是範本路徑。範本路徑只是一般路徑，但內含佔位元。這些佔位元接著會在適當的時間解析。占位符的語法為 {placeholder}，例如 /path/with/{placeholder}。目前僅支持兩個佔位符：{run-id} 和 {output-name}。
source 必要	str 要從中複製數據之計算目標內的路徑。如果設定為 [無]，我們會將此設定為我們在計算目標 OS 暫存目錄內建立的目錄。
partition_format 必要	str 指定路徑的數據分割格式。默認為 [無]。每個路徑的數據分割信息都會根據指定的格式擷取到數據行中。格式部分 '{column_name}' 會建立字符串數據行，而 '{column_name：yyyy/MM/dd/HH/mm/ss}' 會建立 datetime 數據行，其中 'yyyy'、'MM'、'dd'、'HH'、'mm' 和 'ss' 用來擷取日期時間類型的年、月、日、小時、分鐘和秒。格式應該從第一個分割區索引鍵的位置開始，直到檔案路徑的結尾為止。例如，假設路徑為『.。/Accounts/2019/01/01/data.parquet'，其中分割區是依部門名稱和時間，partition_format='/{Department}/{PartitionDate：yyyy/MM/dd}/data.parquet' 會建立字符串數據行 'Department'，其值為 'Accounts' 和 datetime 數據行 'PartitionDate'，其值為 '2019-01-01'。
name 必要	str 這個執行專屬的輸出名稱。這通常用於譜系用途。如果設定為 [無]，我們會自動產生名稱。名稱也會變成環境變數，其中包含的本機路徑，您可以在其中將輸出檔案和資料夾寫入目的地。
destination 必要	tuple 要複製輸出的目標。如果設定為 [無]，我們會將輸出複製到 workspaceblobstore 數據存放區的數據存放區，其路徑 /dataset/{run-id}/{output-name}，其中 run-id 是 Run 的標識符，而 output-name 是上述 name 參數的輸出名稱。目的地是 Tuple，其中第一個專案是數據存放區，而第二個專案是數據存放區內要複製數據的路徑。數據存放區中的路徑可以是範本路徑。範本路徑只是一般路徑，但內含佔位元。這些佔位元接著會在適當的時間解析。占位符的語法為 {placeholder}，例如 /path/with/{placeholder}。目前僅支持兩個佔位符：{run-id} 和 {output-name}。
source 必要	str 要從中複製數據之計算目標內的路徑。如果設定為 [無]，我們會將此設定為我們在計算目標 OS 暫存目錄內建立的目錄。
partition_format 必要	str 指定路徑的數據分割格式。默認為 [無]。每個路徑的數據分割信息都會根據指定的格式擷取到數據行中。格式部分 '{column_name}' 會建立字符串數據行，而 '{column_name：yyyy/MM/dd/HH/mm/ss}' 會建立 datetime 數據行，其中 'yyyy'、'MM'、'dd'、'HH'、'mm' 和 'ss' 用來擷取日期時間類型的年、月、日、小時、分鐘和秒。格式應該從第一個分割區索引鍵的位置開始，直到檔案路徑的結尾為止。例如，假設路徑為『.。/Accounts/2019/01/01/data.parquet'，其中分割區是依部門名稱和時間，partition_format='/{Department}/{PartitionDate：yyyy/MM/dd}/data.parquet' 會建立字符串數據行 'Department'，其值為 'Accounts' 和 datetime 數據行 'PartitionDate'，其值為 '2019-01-01'。

備註

您可以將 OutputFileDatasetConfig 當做自變數傳遞至您的執行，而且它會自動轉譯為計算上的本機路徑。如果指定來源自變數，則會使用來源自變數，否則我們會在OS的暫存資料夾中自動產生目錄。然後，來源目錄內的檔案和資料夾會根據輸出組態複製到目的地。

根據預設，輸出將複製到目的地記憶體的模式會設定為掛接。如需掛接模式的詳細資訊，請參閱as_mount檔。

方法

as_input

指定如何在後續管線步驟中使用輸出作為輸入。

as_mount

設定要掛接的輸出模式。

針對掛接模式，輸出目錄會是 FUSE 掛接的目錄。當檔案關閉時，會上傳寫入掛接目錄的檔案。

as_upload

設定要上傳的輸出模式。

針對上傳模式，寫入輸出目錄的檔案將會在作業結束時上傳。如果作業失敗或取消，則不會上傳輸出目錄。

as_input

指定如何在後續管線步驟中使用輸出作為輸入。

as_input(name=None)

參數

名稱	Description
name 必要	str 執行特定的輸入名稱。

傳回

類型	Description
DatasetConsumptionConfig	DatasetConsumptionConfig實例，描述如何傳遞輸入數據。

as_mount

設定要掛接的輸出模式。

針對掛接模式，輸出目錄會是 FUSE 掛接的目錄。當檔案關閉時，會上傳寫入掛接目錄的檔案。

as_mount(disable_metadata_cache=False)

參數

名稱	Description
disable_metadata_cache 必要	bool 是否要在本機節點中快取元數據，如果停用節點，則無法在作業執行期間看到從其他節點產生的檔案。

傳回

類型	Description
OutputFileDatasetConfig	OutputFileDatasetConfig實例，其模式設定為掛接。

as_upload

設定要上傳的輸出模式。

針對上傳模式，寫入輸出目錄的檔案將會在作業結束時上傳。如果作業失敗或取消，則不會上傳輸出目錄。

as_upload(overwrite=False, source_globs=None)

參數

名稱	Description
overwrite 必要	bool 是否覆寫目的地中已經存在的檔案。
source_globs 必要	list[str] 用來篩選要上傳之檔案的 Glob 模式。

傳回

類型	Description
OutputFileDatasetConfig	OutputFileDatasetConfig設定為上傳模式的實例。

共用方式為

OutputFileDatasetConfig 類別

建構函式

參數

備註

方法

as_input

參數

傳回

as_mount

參數

傳回

as_upload

參數

傳回

意見反應

其他資源