Freigeben über


Aggregator Klasse

Definiert eine Aggregation für angegebene Spalten, die mit Joinschlüsseln identifiziert werden.

Vererbung
builtins.object
Aggregator

Konstruktor

Aggregator()

Hinweise

Aggregatoren werden in der Regel nicht direkt instanziiert. Geben Sie stattdessen den Typ des Aggregators an, wenn Sie eine Anreicherung wie das HolidayEnricher-Objekt verwenden.

Abgeleitete Aggregatoren umfassen AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin und AggregatorTop.

Die process(env, customer_data, public_data, join_keys, debug)-Methode führt die Aggregation aus.

Methoden

get_log_property

Ruft das Protokolleigenschaftstupel ab; „None“, wenn keine Eigenschaft vorhanden ist.

process

Verknüpft „customer_data“ mit „public_data“ nach „join_keys“

Löscht alle Spalten in join_keys und alle Spalten, die sich anschließend in der Liste to_be_cleaned_up_column_names befinden.

process_public_dataset

Führt eine Aggregation für die angegebenen öffentlichen Datenspalten aus

get_log_property

Ruft das Protokolleigenschaftstupel ab; „None“, wenn keine Eigenschaft vorhanden ist.

get_log_property()

process

Verknüpft „customer_data“ mit „public_data“ nach „join_keys“

Löscht alle Spalten in join_keys und alle Spalten, die sich anschließend in der Liste to_be_cleaned_up_column_names befinden.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Parameter

Name Beschreibung
env
Erforderlich

Die Laufzeitumgebung.

customer_data
Erforderlich

Die Kundendaten.

public_data
Erforderlich

Öffentliche Daten

join_keys
Erforderlich

Eine Liste von Joinschlüsselpaaren.

debug
Erforderlich

Gibt an, ob Debuginformationen ausgegeben werden sollen

Gibt zurück

Typ Beschreibung

Ein Tupel aus einer neuen Instanz der CustomerData-Klasse, einer unveränderten PublicData-Instanz, einer neuen verknüpften Instanz der CustomerData-Klasse und Joinschlüsseln (Tupelliste) wird zurückgegeben.

process_public_dataset

Führt eine Aggregation für die angegebenen öffentlichen Datenspalten aus

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Parameter

Name Beschreibung
env
Erforderlich

Die Laufzeitumgebung.

_public_dataset
Erforderlich

Ein Datenrahmen des öffentlicher Datasets.

cols

Eine Liste abzurufender Spaltennamen.

Standardwert: None
join_keys

Liste der zu verwendenden Joinschlüssel

Standardwert: []

Gibt zurück

Typ Beschreibung

Einen neuen Dataframe des öffentlichen Datasets

Attribute

should_direct_join

should_direct_join = True