共用方式為


OutputTabularDatasetConfig 類別

表示如何複製執行的輸出,並升級為 TabularDataset。

初始化 OutputTabularDatasetConfig。

繼承
OutputTabularDatasetConfig

建構函式

OutputTabularDatasetConfig(**kwargs)

備註

您不應該直接呼叫這個建構函式,而是應該建立 OutputFileDatasetConfig,然後呼叫對應的 read_* 方法,將其轉換成 OutputTabularDatasetConfig。

輸出將複製到 OutputTabularDatasetConfig 目的地的方式與 OutputFileDatasetConfig 相同。 兩者之間的差異在於所建立的資料集會是包含所有指定轉換的 TabularDataset。

方法

as_input

指定如何在後續管線步驟中使用輸出作為輸入。

as_mount

設定要掛接的輸出模式。

針對掛接模式,輸出目錄會是 FUSE 掛接的目錄。 當檔案關閉時,會上傳寫入掛接目錄的檔案。

as_upload

設定要上傳的輸出模式。

針對上傳模式,寫入輸出目錄的檔案將會在作業結束時上傳。 如果作業失敗或取消,則不會上傳輸出目錄。

drop_columns

從資料集卸載指定的資料行。

keep_columns

保留指定的資料行,並從資料集卸載所有其他資料行。

random_split

將資料集中的記錄隨機分割成兩個部分,大約依指定的百分比來分割。

產生的輸出組態會變更其名稱,第一個組態會將 _1 附加至名稱,而第二個組態則會將 _2 附加至名稱。 如果會導致名稱衝突,或您想要指定自訂名稱,請手動設定其名稱。

as_input

指定如何在後續管線步驟中使用輸出作為輸入。

as_input(name=None)

參數

名稱 Description
name
必要
str

執行特定的輸入名稱。

傳回

類型 Description

DatasetConsumptionConfig實例,描述如何傳遞輸入資料。

as_mount

設定要掛接的輸出模式。

針對掛接模式,輸出目錄會是 FUSE 掛接的目錄。 當檔案關閉時,會上傳寫入掛接目錄的檔案。

as_mount()

傳回

類型 Description

OutputTabularDatasetConfig實例,其模式設定為掛接。

as_upload

設定要上傳的輸出模式。

針對上傳模式,寫入輸出目錄的檔案將會在作業結束時上傳。 如果作業失敗或取消,則不會上傳輸出目錄。

as_upload(overwrite=False, source_globs=None)

參數

名稱 Description
overwrite
必要

是否覆寫目的地中已經存在的檔案。

source_globs
必要

用來篩選要上傳之檔案的 Glob 模式。

傳回

類型 Description

OutputTabularDatasetConfig設定為上傳模式的 實例。

drop_columns

從資料集卸載指定的資料行。

drop_columns(columns)

參數

名稱 Description
columns
必要

要卸載之資料行的名稱或名稱清單。

傳回

類型 Description

OutputTabularDatasetConfig 卸載資料行的 實例。

keep_columns

保留指定的資料行,並從資料集卸載所有其他資料行。

keep_columns(columns)

參數

名稱 Description
columns
必要

要保留之資料行的名稱或名稱清單。

傳回

類型 Description

OutputTabularDatasetConfig 保留資料行的 實例。

random_split

將資料集中的記錄隨機分割成兩個部分,大約依指定的百分比來分割。

產生的輸出組態會變更其名稱,第一個組態會將 _1 附加至名稱,而第二個組態則會將 _2 附加至名稱。 如果會導致名稱衝突,或您想要指定自訂名稱,請手動設定其名稱。

random_split(percentage, seed=None)

參數

名稱 Description
percentage
必要

分割資料集的近似百分比。 這必須是介於 0.0 和 1.0 之間的數位。

seed
必要
int

要用於隨機產生器的選擇性種子。

傳回

類型 Description

傳回兩個 OutputTabularDatasetConfig 物件的元組,代表分割後的兩個資料集。