count_min_sketch
-Aggregatfunktion
Gilt für: Databricks SQL Databricks Runtime
Die Funktion gibt eine „count_min_sketch“-Aggregation aller Werte in der Gruppe in column
mit epsilon
, confidence
und seed
zurück.
In Databricks SQL und Databricks Runtime 13.3 LTS und höher unterstützt diese Funktion den Aufruf benannter Parameter.
Syntax
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
Diese Funktion kann auch mithilfe der OVER
-Klausel als Fensterfunktion aufgerufen werden.
Argumente
column
: Ein Ausdruck, der in einen integralen numerischen Ausdruck,STRING
oderBINARY
, ausgewertet wird.epsilon
: EinDOUBLE
-Literal größer als 0, das den relativen Fehler beschreibtconfidence
: EinDOUBLE
-Literal größer als 0 und kleiner als 1seed
: EinINTEGER
-Literal.cond
: Ein optionaler boolescher Ausdruck, der die für die Aggregation verwendeten Zeilen filtert.
Gibt zurück
Ein BINARY
.
Bei der „count_min_sketch“-Aggregation handelt es sich um eine probabilistische Datenstruktur, die für die Abschätzung der Kardinalität unter Verwendung eines sublinearen Raums verwendet wird.
Wenn DISTINCT
angegeben wird, wird die Funktion nur für eine eindeutige Menge von expr
-Werten ausgeführt.
Beispiele
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000