Partager via


diffpatterns_text, plug-in

S’applique à : ✅Microsoft Fabric✅Azure Data Explorer

Compare deux jeux de données de valeurs de chaîne et recherche des modèles de texte qui caractérisent les différences entre les deux jeux de données. Le plug-in est appelé avec l’opérateur evaluate .

Retourne diffpatterns_text un ensemble de modèles de texte qui capturent différentes parties des données dans les deux jeux. Par exemple, un modèle capturant un pourcentage important des lignes lorsque la condition est true et un faible pourcentage des lignes lorsque la condition est false. Les modèles sont générés à partir de jetons consécutifs séparés par un espace blanc, avec un jeton de la colonne de texte ou un * représentant un caractère générique. Chaque modèle est représenté par une ligne dans les résultats.

Syntaxe

T | evaluate diffpatterns_text(TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])

En savoir plus sur les conventions de syntaxe.

Paramètres

Nom Type Requise Description
TextColumn string ✔️ Colonne de texte à analyser.
BooleanCondition string ✔️ Expression qui prend la valeur booléenne. L’algorithme fractionne la requête en deux jeux de données à comparer en fonction de cette expression.
MinTokens int Valeur entière comprise entre 0 et 200 qui représente le nombre minimal de jetons non génériques par modèle de résultat. La valeur par défaut est 1.
Seuil decimal Valeur décimale comprise entre 0,015 et 1 qui définit la différence de rapport de modèle minimale entre les deux ensembles. La valeur par défaut est 0.05. Voir les différences.
MaxTokens int Valeur entière comprise entre 0 et 20 qui définit le nombre maximal de jetons par modèle de résultat, en spécifiant une limite inférieure, diminue le runtime de requête.

Retours

Le résultat de diffpatterns_text retourne les colonnes suivantes :

  • Count_of_True : nombre de lignes correspondant au modèle lorsque la condition est true.
  • Count_of_False : nombre de lignes correspondant au modèle lorsque la condition est false.
  • Percent_of_True : pourcentage de lignes correspondant au modèle à partir des lignes lorsque la condition est true.
  • Percent_of_False : pourcentage de lignes correspondant au modèle à partir des lignes lorsque la condition est false.
  • Modèle : modèle de texte contenant des jetons de la chaîne de texte et «* » pour les caractères génériques.

Remarque

Les modèles ne sont pas nécessairement distincts et peuvent ne pas fournir une couverture complète du jeu de données. Les modèles peuvent se chevaucher et certaines lignes peuvent ne correspondre à aucun modèle.

Exemple

L’exemple suivant utilise des données de la table StormEvents dans le cluster d’aide. Pour accéder à ces données, connectez-vous à https://dataexplorer.azure.com/clusters/help/databases/Samples. Dans le menu de gauche, accédez à l’aide>des tables>d’exemples>Storm_Events.

Les exemples de ce didacticiel utilisent la StormEvents table, qui est publiquement disponible dans les exemples de données d’analyse météorologique.

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)

Sortie

Count_of_True Count_of_False Percent_of_True Percent_of_False Modèle
11 0 6.29 0 Les vents se déplaçant vers le nord-ouest en * wake * un creux de surface a apporté de fortes chutes de neige dans le vent * lac Supérieur à partir de
9 0 5.14 0 La haute pression canadienne s’est installée * * région * a produit les températures les plus froides depuis février * 2006. Durées * températures de congélation
0 34 0 6.24 * * * * * * * West Tennessee,
0 42 0 7.71 * * provoqué * * dans l’ouest du Colorado. *
0 45 0 8.26 * * inférieur à la normale *
0 110 0 20.18 En dessous de la normale *