Udostępnij za pośrednictwem


diffpatterns_text, wtyczka

Dotyczy: ✅Microsoft Fabric✅Azure Data Explorer

Porównuje dwa zestawy danych wartości ciągu i znajduje wzorce tekstowe, które charakteryzuje różnice między dwoma zestawami danych. Wtyczka jest wywoływana z operatorem evaluate .

Zwraca diffpatterns_text zestaw wzorców tekstowych, które przechwytują różne części danych w dwóch zestawach. Na przykład wzorzec przechwytujący duży procent wierszy, gdy warunek jest true i niski procent wierszy, gdy warunek to false. Wzorce są tworzone na podstawie kolejnych tokenów oddzielonych białym znakiem z tokenem z kolumny tekstowej lub symbolem * wieloznacznymi. Każdy wzorzec jest reprezentowany przez wiersz w wynikach.

Składnia

T | evaluate diffpatterns_text(TextColumn, Wartość logicznaCondition [, MinTokens, Threshold , MaxTokens])

Dowiedz się więcej na temat konwencji składni.

Parametry

Nazwisko Type Wymagania opis
Kolumna tekstowa string ✔️ Kolumna tekstowa do przeanalizowania.
Wartość logicznaCondition string ✔️ Wyrażenie, które oblicza wartość logiczną. Algorytm dzieli zapytanie na dwa zestawy danych w celu porównania na podstawie tego wyrażenia.
MinTokens int Wartość całkowita z zakresu od 0 do 200, która reprezentuje minimalną liczbę tokenów innych niż wieloznaczne na wzorzec wyniku. Wartość domyślna to 1.
Threshold decimal Wartość dziesiętna z zakresu od 0,015 do 1, która określa minimalną różnicę współczynnika wzorca między dwoma zestawami. Wartość domyślna to 0,05. Zobacz różnice.
MaxTokens int Wartość całkowita z zakresu od 0 do 20, która ustawia maksymalną liczbę tokenów na wzorzec wyniku, określając niższy limit zmniejsza środowisko uruchomieniowe zapytania.

Zwraca

Wynik diffpatterns_text zwraca następujące kolumny:

  • Count_of_True: liczba wierszy pasujących do wzorca, gdy warunek to true.
  • Count_of_False: liczba wierszy pasujących do wzorca, gdy warunek to false.
  • Percent_of_True: procent wierszy pasujących do wzorca z wierszy, gdy warunek to true.
  • Percent_of_False: procent wierszy pasujących do wzorca z wierszy, gdy warunek to false.
  • Wzorzec: wzorzec tekstu zawierający tokeny z ciągu tekstowego i symboli wieloznacznych .*

Uwaga

Wzorce nie muszą być odrębne i mogą nie zapewniać pełnego pokrycia zestawu danych. Wzorce mogą się nakładać, a niektóre wiersze mogą nie być zgodne z żadnym wzorcem.

Przykład

W poniższym przykładzie użyto danych z tabeli StormEvents w klastrze pomocy. Aby uzyskać dostęp do tych danych, zaloguj się do usługi https://dataexplorer.azure.com/clusters/help/databases/Samples. W menu po lewej stronie przejdź do sekcji>Przykłady>tabel>Storm_Events.

W przykładach w tym samouczku użyto StormEvents tabeli, która jest publicznie dostępna w przykładowych danych analizy pogody.

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)

Wyjście

Count_of_True Count_of_False Percent_of_True Percent_of_False Wzorzec
11 0 6.29 0 Wiatry przesuwające się na północny zachód w * pobudki * koryta powierzchni przyniósł ciężki efekt opadu śniegu jeziora w dół * Lake Superior z
9 0 5.14 0 Kanadyjskie wysokie ciśnienie rozliczane * * region * produkowane najzimniejsze temperatury od lutego * 2006. Czasy trwania * temperatury zamrażania
0 34 0 6.24 * * * West Tennessee,
0 42 0 7.71 * * spowodowane * w zachodnim Kolorado. *
0 45 0 8.26 * poniżej normalnego *
0 110 0 20.18 Poniżej normalnego *