Freigeben über


Plug-In „diffpatterns_text“

Gilt für: ✅Microsoft Fabric✅Azure Data Explorer

Vergleicht zwei Datasets von Zeichenfolgenwerten und findet Textmuster, die Unterschiede zwischen den beiden Datasets kennzeichnen. Das Plug-In wird mit dem evaluate Operator aufgerufen.

Der diffpatterns_text Satz von Textmustern gibt einen Satz von Textmustern zurück, die unterschiedliche Teile der Daten in den beiden Sätzen erfassen. Beispiel: Ein Muster, das einen großen Prozentsatz der Zeilen erfasst, wenn die Bedingung und true der niedrige Prozentsatz der Zeilen ist, wenn die Bedingung ist false. Die Muster werden aus aufeinander folgenden Token erstellt, die durch Leerzeichen getrennt sind, mit einem Token aus der Textspalte oder einem * Platzhalter. Jede Zeile in den Ergebnissen steht für ein Muster.

Syntax

T | evaluate diffpatterns_text(TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])

Erfahren Sie mehr über Syntaxkonventionen.

Parameter

Name Type Erforderlich Beschreibung
TextColumn string ✔️ Die zu analysierende Textspalte.
BooleanCondition string ✔️ Ein Ausdruck, der zu einem booleschen Wert ausgewertet wird. Der Algorithmus teilt die Abfrage in die beiden Datasets auf, die basierend auf diesem Ausdruck verglichen werden sollen.
MinTokens int Ein ganzzahliger Wert zwischen 0 und 200, der die minimale Anzahl von Nicht-Platzhaltertoken pro Ergebnismuster darstellt. Der Standardwert ist 1.
Schwellenwert decimal Ein Dezimalwert zwischen 0,015 und 1, der die Minimale Musterverhältnisdifferenz zwischen den beiden Sätzen festlegt. Der Standardwert ist 0,05. Siehe Diffpatterns.
MaxTokens int Ein ganzzahliger Wert zwischen 0 und 20, der die maximale Anzahl von Token pro Ergebnismuster festlegt, wobei ein niedrigerer Grenzwert die Abfragelaufzeit verringert.

Gibt zurück

Das Ergebnis von diffpatterns_text gibt die folgenden Spalten zurück:

  • Count_of_True: Die Anzahl der Zeilen, die dem Muster entsprechen, wenn die Bedingung lautet true.
  • Count_of_False: Die Anzahl der Zeilen, die dem Muster entsprechen, wenn die Bedingung lautet false.
  • Percent_of_True: Der Prozentsatz der Zeilen, die dem Muster aus den Zeilen entsprechen, wenn die Bedingung ist true.
  • Percent_of_False: Der Prozentsatz der Zeilen, die dem Muster aus den Zeilen entsprechen, wenn die Bedingung ist false.
  • Muster: Das Textmuster, das Token aus der Textzeichenfolge und "*" für Wildcards enthält.

Hinweis

Die Muster sind nicht notwendigerweise eindeutig und bieten möglicherweise keine vollständige Abdeckung des Datasets. Die Muster können überlappend sein, und einige Zeilen entsprechen möglicherweise keinem Muster.

Beispiel

Im folgenden Beispiel werden Daten aus der Tabelle "StormEvents" im Hilfecluster verwendet. Um auf diese Daten zuzugreifen, melden Sie sich bei https://dataexplorer.azure.com/clusters/help/databases/Samples. Navigieren Sie im linken Menü zu Den>Beispieltabellen>>Storm_Events.

In den Beispielen in diesem Lernprogramm wird die StormEvents Tabelle verwendet, die in den Beispieldaten der Wetteranalyse öffentlich verfügbar ist.

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)

Output

Count_of_True Count_of_False Percent_of_True Percent_of_False Muster
11 0 6.29 0 Winde sich im Nordwesten in * Wake * ein Oberflächentrog brachte schwere See-Effekt Schneefall abwärts * Lake Superior von
9 0 5,14 0 Kanadischer Hochdruck hat sich * * Region * produziert die kältesten Temperaturen seit Februar * 2006. Dauer * Gefriertemperaturen
0 34 0 6.24 * * * * * West Tennessee,
0 42 0 7.71 * * * * verursacht * * * über West Colorado. *
0 45 0 8.26 * unter normal *
0 110 0 20.18 Unter normal *