Plug-In „diffpatterns_text“
Gilt für: ✅Microsoft Fabric✅Azure Data Explorer
Vergleicht zwei Datasets von Zeichenfolgenwerten und findet Textmuster, die Unterschiede zwischen den beiden Datasets kennzeichnen. Das Plug-In wird mit dem evaluate
Operator aufgerufen.
Der diffpatterns_text
Satz von Textmustern gibt einen Satz von Textmustern zurück, die unterschiedliche Teile der Daten in den beiden Sätzen erfassen. Beispiel: Ein Muster, das einen großen Prozentsatz der Zeilen erfasst, wenn die Bedingung und true
der niedrige Prozentsatz der Zeilen ist, wenn die Bedingung ist false
. Die Muster werden aus aufeinander folgenden Token erstellt, die durch Leerzeichen getrennt sind, mit einem Token aus der Textspalte oder einem *
Platzhalter. Jede Zeile in den Ergebnissen steht für ein Muster.
Syntax
T | evaluate diffpatterns_text(
TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])
Erfahren Sie mehr über Syntaxkonventionen.
Parameter
Name | Type | Erforderlich | Beschreibung |
---|---|---|---|
TextColumn | string |
✔️ | Die zu analysierende Textspalte. |
BooleanCondition | string |
✔️ | Ein Ausdruck, der zu einem booleschen Wert ausgewertet wird. Der Algorithmus teilt die Abfrage in die beiden Datasets auf, die basierend auf diesem Ausdruck verglichen werden sollen. |
MinTokens | int |
Ein ganzzahliger Wert zwischen 0 und 200, der die minimale Anzahl von Nicht-Platzhaltertoken pro Ergebnismuster darstellt. Der Standardwert ist 1. | |
Schwellenwert | decimal |
Ein Dezimalwert zwischen 0,015 und 1, der die Minimale Musterverhältnisdifferenz zwischen den beiden Sätzen festlegt. Der Standardwert ist 0,05. Siehe Diffpatterns. | |
MaxTokens | int |
Ein ganzzahliger Wert zwischen 0 und 20, der die maximale Anzahl von Token pro Ergebnismuster festlegt, wobei ein niedrigerer Grenzwert die Abfragelaufzeit verringert. |
Gibt zurück
Das Ergebnis von diffpatterns_text gibt die folgenden Spalten zurück:
- Count_of_True: Die Anzahl der Zeilen, die dem Muster entsprechen, wenn die Bedingung lautet
true
. - Count_of_False: Die Anzahl der Zeilen, die dem Muster entsprechen, wenn die Bedingung lautet
false
. - Percent_of_True: Der Prozentsatz der Zeilen, die dem Muster aus den Zeilen entsprechen, wenn die Bedingung ist
true
. - Percent_of_False: Der Prozentsatz der Zeilen, die dem Muster aus den Zeilen entsprechen, wenn die Bedingung ist
false
. - Muster: Das Textmuster, das Token aus der Textzeichenfolge und "
*
" für Wildcards enthält.
Hinweis
Die Muster sind nicht notwendigerweise eindeutig und bieten möglicherweise keine vollständige Abdeckung des Datasets. Die Muster können überlappend sein, und einige Zeilen entsprechen möglicherweise keinem Muster.
Beispiel
Im folgenden Beispiel werden Daten aus der Tabelle "StormEvents" im Hilfecluster verwendet. Um auf diese Daten zuzugreifen, melden Sie sich bei https://dataexplorer.azure.com/clusters/help/databases/Samples. Navigieren Sie im linken Menü zu Den>Beispieltabellen>>Storm_Events.
In den Beispielen in diesem Lernprogramm wird die StormEvents
Tabelle verwendet, die in den Beispieldaten der Wetteranalyse öffentlich verfügbar ist.
StormEvents
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)
Output
Count_of_True | Count_of_False | Percent_of_True | Percent_of_False | Muster |
---|---|---|---|---|
11 | 0 | 6.29 | 0 | Winde sich im Nordwesten in * Wake * ein Oberflächentrog brachte schwere See-Effekt Schneefall abwärts * Lake Superior von |
9 | 0 | 5,14 | 0 | Kanadischer Hochdruck hat sich * * Region * produziert die kältesten Temperaturen seit Februar * 2006. Dauer * Gefriertemperaturen |
0 | 34 | 0 | 6.24 | * * * * * West Tennessee, |
0 | 42 | 0 | 7.71 | * * * * verursacht * * * über West Colorado. * |
0 | 45 | 0 | 8.26 | * unter normal * |
0 | 110 | 0 | 20.18 | Unter normal * |