共用方式為


Aggregator 類別

針對使用聯結索引鍵識別的指定資料行定義匯總。

繼承
builtins.object
Aggregator

建構函式

Aggregator()

備註

匯總工具通常不會直接具現化。 請改用擴充器,例如 HolidayEnricher 物件,指定匯總工具的類型。

衍生匯總工具組括 AggregatorAllAggregatorAvgAggregatorMaxAggregatorMinAggregatorTop

方法 process(env, customer_data, public_data, join_keys, debug) 會執行匯總。

方法

get_log_property

取得記錄屬性元組,如果沒有屬性,則為 None。

process

左聯結customer_data與join_keys上的public_data。

卸載join_keys中的所有資料行,以及之後在to_be_cleaned_up_column_names清單中的所有資料行。

process_public_dataset

對指定的公用資料行執行匯總。

get_log_property

取得記錄屬性元組,如果沒有屬性,則為 None。

get_log_property()

process

左聯結customer_data與join_keys上的public_data。

卸載join_keys中的所有資料行,以及之後在to_be_cleaned_up_column_names清單中的所有資料行。

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

參數

名稱 Description
env
必要

執行時間環境。

customer_data
必要

客戶資料。

public_data
必要

公用資料。

join_keys
必要

聯結金鑰組的清單。

debug
必要

指出是否列印偵錯資訊。

傳回

類型 Description

( CustomerData 類別的新實例、PublicData 的新聯結實例、CustomerData 類別的新聯結實例、聯結索引鍵 (Tuple 清單) ) 的 Tuple

process_public_dataset

對指定的公用資料行執行匯總。

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

參數

名稱 Description
env
必要

執行時間環境。

_public_dataset
必要

公用資料集資料框架。

cols

要擷取的資料行名稱清單。

預設值: None
join_keys

要使用的聯結索引鍵清單。

預設值: []

傳回

類型 Description

公用資料集的新 DataFrame。

屬性

should_direct_join

should_direct_join = True