Partager via


Fusion approximative

Fusion approximative est une fonctionnalité de préparation des données intelligente que vous pouvez utiliser pour appliquer des algorithmes de correspondance approximative lors de la comparaison de colonnes. Ces algorithmes tentent de trouver des correspondances entre les tables qui sont fusionnées.

Vous pouvez activer la correspondance approximative en bas de la boîte de dialogue Fusionner en sélectionnant la case d’option Utiliser la correspondance approximative pour effectuer la fusion. Informations supplémentaires : Vue d’ensemble des opérations de fusion

Remarque

La correspondance approximative est prise en charge uniquement pour les opérations de fusion sur des colonnes de texte. Power Query utilise l’algorithme de similarité Jaccard pour mesurer la similarité entre des paires d’instances.

Exemple de scénario

Un cas d’usage courant de la correspondance approximative est avec des champs de texte de forme libre, par exemple, dans un formulaire d’enquête. Pour cet article, l’échantillon de table a été tiré directement d’une enquête en ligne envoyée à un groupe, qui contenait une unique question : What is your favorite fruit? (Quel est votre fruit préféré ?).

Les résultats de cette enquête sont présentés dans l’image suivante.

Échantillon d’enquête contenant des entrées brutes.

Capture d’écran de l’exemple de table de résultat d’enquête contenant le graphique de distribution de colonnes montrant neuf enregistrements distincts, avec des réponses uniques émaillées de fautes de frappe, d’usages divers du singulier ou du pluriel et d’autres problèmes de casse.

Les neuf enregistrements reflètent les soumissions d’enquête. Le problème avec les soumissions d’enquête est que certaines contiennent des fautes de frappe, certaines sont au pluriel et d’autres au singulier, ou certaines en majuscules et d’autres en minuscules.

Pour vous aider à normaliser ces valeurs, dans cet exemple, vous disposez d’une table de référence Fruits.

Table de référence Fruits.

Capture d’écran de la table de référence Fruits contenant un graphique de distribution de colonnes montrant quatre fruits distincts, tous uniques, et la liste des fruits : pomme, ananas, pastèque et banane.

Remarque

Par souci de simplicité, cette table de référence Fruits inclut uniquement les noms des fruits qui seront nécessaires pour ce scénario. Votre table de référence peut avoir autant de lignes que nécessaire.

L’objectif est de créer une table comme celle ci-après, où vous avez normalisé toutes ces valeurs afin de pouvoir approfondir l’analyse.

Échantillon de table de résultat d’enquête.

Capture d’écran de l’exemple de table de résultat d’enquête avec la colonne Question contenant le graphique de distribution de colonnes. Le graphique montre neuf réponses distinctes avec toutes les réponses uniques. Les réponses à l’enquête contiennent toutes les fautes de frappe, d’usages divers du singulier ou du pluriel et d’autres problèmes de casse. La table de sortie contient également la colonne Fruit. Cette colonne contient le graphique de distribution de colonnes montrant quatre réponses distinctes avec une réponse unique. Il répertorie également tous les fruits correctement orthographiés, au singulier et à la casse appropriée.

Opération de fusion approximative

Pour effectuer la fusion approximative, commencez par effectuer une fusion. Dans ce cas, vous utilisez une jointure externe gauche où la table de gauche est celle de l’enquête, et la table de droite est la table de référence Fruits. En bas de la boîte de dialogue, activez la case à cocher Utiliser la correspondance approximative pour effectuer la fusion.

Capture d’écran de la boîte de dialogue Fusionner montrant comment utiliser la correspondance approximative pour effectuer l’option de fusion.

Après avoir sélectionné OK, vous pouvez voir une nouvelle colonne dans votre table, résultant de cette opération de fusion. Si vous la développez, il y a une ligne ne contenant aucune valeur. C’est exactement ce qu’indiquait le message de la boîte de dialogue dans l’image précédente, qui disait « The selection matches 8 of 9 rows from the first table » (La sélection correspond à 8 lignes sur 9 du premier tableau).

Résultats de correspondance approximative dans la colonne Fruit.

Capture d’écran de la colonne Fruit ajoutée à la table d’enquête. Toutes les lignes de la colonne Question sont développées, à l’exception de la ligne 9, qui n’a pas pu être développée, et la colonne Fruit contient la valeur nulle.

Options de correspondance approximative

Vous pouvez modifier les Options de correspondance approximative pour ajuster la façon dont une correspondance approximative devrait être effectuée. Sélectionnez la commande Fusionner les requêtes, puis, dans la boîte de dialogue Fusionner, développez Options de correspondance approximative.

Capture d’écran de la boîte de dialogue Fusionner avec les options de correspondance approximative affichées.

Les options disponibles sont les suivantes :

  • Seuil de similarité (facultatif) : valeur comprise entre 0,00 et 1,00 permettant de faire correspondre des enregistrements au-delà d’un score de similarité donné. Un seuil de 1,00 est le même que la spécification d’un critère de correspondance exacte. Par exemple, Grapes (Raisins) correspond à Graes (il manque la lettre p dans Grapes) uniquement si le seuil est inférieur à 0,90. Par défaut, cette valeur est définie à 0,80.
  • Ignorer la casse : permet la mise en correspondance d’enregistrements, quelle que soit le casse du texte.
  • Faire correspondre en combinant des parties de texte : permet de combiner des parties de texte pour trouver des correspondances. Par exemple, si cette option est activée, Micro soft est mis en correspondance avec Microsoft.
  • Afficher les scores de similarité : affiche les scores de similarité entre l’entrée et les valeurs correspondantes après la correspondance approximative.
  • Nombre de correspondances (facultatif) : spécifie le nombre maximal de lignes correspondantes pouvant être retournées pour chaque ligne d’entrée.
  • Table de transformation (facultatif) : permet la mise en correspondance d’enregistrements sur la base de mappages de valeurs personnalisés. Par exemple, Grapes est mis en correspondance avec Raisins si une table de transformation est fournie, dans laquelle la colonne From contient Grapes et la colonne To contient Raisins.

Table de transformation

Pour l’exemple présenté dans cet article, vous pouvez utiliser une table de transformation pour mapper la valeur qui a une paire manquante. Cette valeur, apls, doit être mappée à Apple. Votre table de transformation comporte deux colonnes :

  • From contient les valeurs à trouver.
  • À contient les valeurs qui sont utilisées pour remplacer les valeurs trouvées à l’aide de la colonne De.

Pour cet article, la table de transformation se présente comme suit :

Du À
apls Apple

Vous pouvez revenir à la boîte de dialogue Fusionner, puis, dans Options de correspondance approximative, sous Nombre de correspondances, entrer 1. Activez l’option Afficher les scores de similarité, puis, sous Table de transformation, dans le menu déroulant, sélectionnez Transform table.

Capture d’écran de la zone de dialogue Fusionner avec le nombre de correspondances définies sur 1 et la table Transformation définie sur Transformer la table.

Après avoir sélectionné OK, vous pouvez passer à l’étape de fusion. Lorsque vous développerez la colonne contenant les valeurs de la table, en plus du champ Fruit, vous voyez aussi le champ Score de similarité. Sélectionnez les deux et développez-les sans ajouter de préfixe.

Capture d’écran de la boîte de dialogue de développement de la table pour la colonne Fruits qui contient les champs Fruit et Score de similarité sélectionnés.

Une fois développés, ces deux champs sont ajoutés à votre table. Notez les valeurs obtenues pour les scores de similarité de chaque valeur. Ces scores peuvent vous aider à effectuer d’autres transformations si nécessaire pour déterminer si vous devez réduire ou augmenter votre seuil de similarité.

Capture d’écran de la table obtenue après le processus de fusion approximative, montrant les nouveaux champs Fruit et Score de similarité pour chaque valeur.

Pour cet exemple, le Score de similarité fournit uniquement une information supplémentaire et n’est pas nécessaire dans le résultat de cette requête. Vous pouvez donc le supprimer. Notez que l’exemple a commencé avec neuf valeurs distinctes, mais qu’après la fusion approximative, il n’y a que quatre valeurs distinctes.

Fusion approximative de table de résultat d’enquête.

Capture d’écran de la fusion approximative de la table de résultat d’enquête avec la colonne Question contenant le graphique de distribution de colonnes montrant neuf enregistrements distincts, avec des réponses uniques émaillées de fautes de frappe, d’usages divers du singulier ou du pluriel, et d’autres problèmes de casse. Contient également la colonne Fruit avec le graphique de distribution de colonnes montrant quatre enregistrements distincts avec une réponse unique, et répertorie tous les fruits correctement orthographiés, au singulier et dans la casse appropriée.

Pour plus d’informations sur le fonctionnement des tables de transformation, accédez aux Principes pour les tables de transformation.