Aggregator 類別

參考

針對使用聯結索引鍵識別的指定資料行定義匯總。

繼承: builtins.object

Aggregator

建構函式

Aggregator()

備註

匯總工具通常不會直接具現化。請改用擴充器，例如 HolidayEnricher 物件，指定匯總工具的類型。

衍生匯總工具組括 AggregatorAll 、 AggregatorAvg 、 AggregatorMax 、 AggregatorMin 、 AggregatorTop 。

方法 process(env, customer_data, public_data, join_keys, debug) 會執行匯總。

方法

get_log_property

取得記錄屬性元組，如果沒有屬性，則為 None。

process

左聯結customer_data與join_keys上的public_data。

卸載join_keys中的所有資料行，以及之後在to_be_cleaned_up_column_names清單中的所有資料行。

process_public_dataset

對指定的公用資料行執行匯總。

get_log_property

取得記錄屬性元組，如果沒有屬性，則為 None。

get_log_property()

process

左聯結customer_data與join_keys上的public_data。

卸載join_keys中的所有資料行，以及之後在to_be_cleaned_up_column_names清單中的所有資料行。

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

參數

名稱	Description
env 必要	RuntimeEnv 執行時間環境。
customer_data 必要	CustomerData 客戶資料。
public_data 必要	PublicData 公用資料。
join_keys 必要	list[tuple] 聯結金鑰組的清單。
debug 必要	bool 指出是否列印偵錯資訊。

傳回

類型	Description
tuple[ CustomerData, PublicData, CustomerData, list[tuple([str, str])]	( CustomerData 類別的新實例、PublicData 的新聯結實例、CustomerData 類別的新聯結實例、聯結索引鍵 (Tuple 清單) ) 的 Tuple

process_public_dataset

對指定的公用資料行執行匯總。

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

參數

名稱	Description
env 必要	RuntimeEnv 執行時間環境。
_public_dataset 必要	DataFrame 公用資料集資料框架。
cols	list 要擷取的資料行名稱清單。預設值: None
join_keys	list 要使用的聯結索引鍵清單。預設值: []

傳回

類型	Description
object	公用資料集的新 DataFrame。

屬性

should_direct_join

should_direct_join = True

共用方式為

Aggregator 類別

建構函式

備註

方法

get_log_property

process

參數

傳回

process_public_dataset

參數

傳回

屬性

should_direct_join

意見反應

其他資源