diffpatterns_text, wtyczka
Dotyczy: ✅Microsoft Fabric✅Azure Data Explorer
Porównuje dwa zestawy danych wartości ciągu i znajduje wzorce tekstowe, które charakteryzuje różnice między dwoma zestawami danych. Wtyczka jest wywoływana z operatorem evaluate
.
Zwraca diffpatterns_text
zestaw wzorców tekstowych, które przechwytują różne części danych w dwóch zestawach. Na przykład wzorzec przechwytujący duży procent wierszy, gdy warunek jest true
i niski procent wierszy, gdy warunek to false
. Wzorce są tworzone na podstawie kolejnych tokenów oddzielonych białym znakiem z tokenem z kolumny tekstowej lub symbolem *
wieloznacznymi. Każdy wzorzec jest reprezentowany przez wiersz w wynikach.
Składnia
T | evaluate diffpatterns_text(
TextColumn, Wartość logicznaCondition [, MinTokens, Threshold , MaxTokens])
Dowiedz się więcej na temat konwencji składni.
Parametry
Nazwisko | Type | Wymagania | opis |
---|---|---|---|
Kolumna tekstowa | string |
✔️ | Kolumna tekstowa do przeanalizowania. |
Wartość logicznaCondition | string |
✔️ | Wyrażenie, które oblicza wartość logiczną. Algorytm dzieli zapytanie na dwa zestawy danych w celu porównania na podstawie tego wyrażenia. |
MinTokens | int |
Wartość całkowita z zakresu od 0 do 200, która reprezentuje minimalną liczbę tokenów innych niż wieloznaczne na wzorzec wyniku. Wartość domyślna to 1. | |
Threshold | decimal |
Wartość dziesiętna z zakresu od 0,015 do 1, która określa minimalną różnicę współczynnika wzorca między dwoma zestawami. Wartość domyślna to 0,05. Zobacz różnice. | |
MaxTokens | int |
Wartość całkowita z zakresu od 0 do 20, która ustawia maksymalną liczbę tokenów na wzorzec wyniku, określając niższy limit zmniejsza środowisko uruchomieniowe zapytania. |
Zwraca
Wynik diffpatterns_text zwraca następujące kolumny:
- Count_of_True: liczba wierszy pasujących do wzorca, gdy warunek to
true
. - Count_of_False: liczba wierszy pasujących do wzorca, gdy warunek to
false
. - Percent_of_True: procent wierszy pasujących do wzorca z wierszy, gdy warunek to
true
. - Percent_of_False: procent wierszy pasujących do wzorca z wierszy, gdy warunek to
false
. - Wzorzec: wzorzec tekstu zawierający tokeny z ciągu tekstowego i symboli wieloznacznych .
*
Uwaga
Wzorce nie muszą być odrębne i mogą nie zapewniać pełnego pokrycia zestawu danych. Wzorce mogą się nakładać, a niektóre wiersze mogą nie być zgodne z żadnym wzorcem.
Przykład
W poniższym przykładzie użyto danych z tabeli StormEvents w klastrze pomocy. Aby uzyskać dostęp do tych danych, zaloguj się do usługi https://dataexplorer.azure.com/clusters/help/databases/Samples. W menu po lewej stronie przejdź do sekcji>Przykłady>tabel>Storm_Events.
W przykładach w tym samouczku użyto StormEvents
tabeli, która jest publicznie dostępna w przykładowych danych analizy pogody.
StormEvents
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)
Wyjście
Count_of_True | Count_of_False | Percent_of_True | Percent_of_False | Wzorzec |
---|---|---|---|---|
11 | 0 | 6.29 | 0 | Wiatry przesuwające się na północny zachód w * pobudki * koryta powierzchni przyniósł ciężki efekt opadu śniegu jeziora w dół * Lake Superior z |
9 | 0 | 5.14 | 0 | Kanadyjskie wysokie ciśnienie rozliczane * * region * produkowane najzimniejsze temperatury od lutego * 2006. Czasy trwania * temperatury zamrażania |
0 | 34 | 0 | 6.24 | * * * West Tennessee, |
0 | 42 | 0 | 7.71 | * * spowodowane * w zachodnim Kolorado. * |
0 | 45 | 0 | 8.26 | * poniżej normalnego * |
0 | 110 | 0 | 20.18 | Poniżej normalnego * |