Comment les analyseurs lexicaux, les générateurs de formes dérivées et les fichiers de mots parasites affectent les résultats des recherches (Office SharePoint Server 2007)
Les analyseurs lexicaux, les générateurs de formes dérivées et les fichiers de mots parasites, appelés également fichiers de mots vides, sont tous des composants qui font partie des processus d'indexation et de requête.
Dans cet article :
Analyseurs lexicaux
Générateurs de formes dérivées
Fichier de mots parasites
Analyseurs lexicaux
Un analyseur lexical est un composant qui permet de décomposer des chaînes de texte en mots individuels pendant l’indexation et les requêtes. Pendant l’indexation, le texte est extrait des éléments de contenu sous la forme d’une chaîne de caractères. Les analyseurs lexicaux rétablissent le début et la fin de chaque mot dans cette chaîne de caractères. Ils séparent également les mots composés afin que les utilisateurs reçoivent les résultats d’une requête sur une portion du mot composé original et aussi sur les termes qui le composent. Les analyseurs lexicaux convertissent aussi les nombres et les dates du contenu dans une forme standard.
À chaque langue correspond un analyseur lexical propre. Le moteur d’indexation détermine lequel utiliser et, si plusieurs langues sont détectées, il peut utiliser plus d’un analyseur lexical pour le texte d’un même document. S’il n’existe pas d’analyseur lexical pour une langue particulière, c’est l’analyseur lexical neutre qui est utilisé.
Les analyseurs lexicaux sont également utilisés par le moteur de requête. Quand un utilisateur envoie une requête, un analyseur lexical décompose les mots composés et les expressions. Cela augmente les chances que cette requête trouve des résultats dans l’index du contenu. Au cours d’une requête, la langue de l’analyseur lexical est déterminée par la langue du navigateur Web de l’utilisateur.
Par défaut, Microsoft Office SharePoint Server 2007 installe les analyseurs lexicaux présentés dans le tableau suivant sur chaque serveur d’une batterie SharePoint.
Arabe |
Hongrois |
Pendjabi |
Bengali |
Islandais |
Roumain |
Bulgare |
Indonésien |
Russe |
Catalan |
Italien |
Serbe (Cyrillique) |
Croate |
Japonais |
Serbe (Latin) |
Tchèque |
Kannada |
Slovaque |
Danois |
Coréen |
Slovène |
Néerlandais |
Letton |
Espagnol |
Anglais |
Lituanien |
Suédois |
Finnois |
Malais |
Tamoul |
Français |
Malayalam |
Télougou |
Allemand |
Marathi |
Thaï |
Grec |
Norvégien (Bokmål) |
Turc |
Gujarati |
Polonais |
Ukrainien |
Hébreu |
Portugais |
Ourdou |
Hindi |
Portugais (Brésil) |
Vietnamien |
Générateurs de formes dérivées
Un générateur de formes dérivées est un composant qui trouve la racine d’un terme et qui peut aussi produire des formes dérivées de ce terme. Par exemple, si une requête en français contient le mot « acheté », le générateur de formes dérivées peut ajouter la racine « acheter » à la requête et produire d’autres formes telles que « achète » et « achat » à ajouter à la requête.
Les générateurs de formes dérivées sont propres à chaque langue et ils peuvent avoir plusieurs fonctions selon la langue. Certains trouvent la racine du mot, mais ne produisent pas de formes dérivées. Par défaut, le générateur de formes dérivées est désactivé pendant les requêtes pour de nombreuses langues. Vous pouvez l’activer pour les requêtes de recherche dans le composant WebPart Résultats principaux de recherche.
Remarque : |
---|
Chaque langue qui possède un analyseur lexical comporte aussi un générateur de formes dérivées, si la langue peut le prendre en charge. Pour certaines langues, les générateurs de formes dérivées sont installés, mais pas activés. Pour les activer, vous devez modifier le Registre. Vous trouverez des instructions sur l’activation des générateurs de formes dérivées pour ces langues dans Comment activer les analyseurs lexicaux et les générateurs de formes dérivées dans SharePoint Server 2007 (https://go.microsoft.com/fwlink/?linkid=141180&clcid=0x40C). |
Fichiers de mots parasites
Dans une langue, certains mots ne sont pas utiles pour les recherches. Par exemple, en français des mots tels que « le » ou « la » et « un » ou « une » n’apportent rien à la recherche, parce que tous les documents écrits en français les contiennent. C’est ce qu’on appelle les mots parasites, ou mots vides. Pendant l’indexation, les mots parasites sont retirés afin de réduire les index, ce qui peut améliorer les performances. Pour plus d’informations, voir Modifier un fichier de mots parasites (Office SharePoint Server).
Les fichiers de mots parasites ont considérablement changé depuis les précédentes versions des produits SharePoint. De nombreux mots parasites qui y figuraient avant ne sont plus dans ceux de Office SharePoint Server 2007 et sont inclus dans les index de contenu. Par défaut, les utilisateurs peuvent exécuter des requêtes sur des mots qui étaient auparavant exclus (mots parasites). Ces requêtes sont dites requêtes de mots parasites. Vous pouvez exclure ce type de recherche du composant WebPart Résultats principaux de recherche. De plus, si une requête comporte une chaîne entre guillemets où figure un mot parasite, ce dernier peut être remplacé par n’importe quel mot dans les résultats de la requête. Par exemple, si une requête inclut « configurer un serveur », les éléments qui contiennent « configurer le serveur » et « configurer tous les serveurs » sont inclus dans les résultats de la requête.
Important : |
---|
Ne supprimez pas tous les mots d’un fichier de mots parasites. Ce type de fichier doit contenir au moins une entrée, même s’il s’agit simplement d’un point (.). |
Voir aussi
Concepts
Gérer les paramètres pour améliorer les résultats de recherche (Office SharePoint Server)
Configurer des pages faisant autorité (Office SharePoint Server)
Ajouter des termes de mots clés avec les Meilleurs résultats (Office SharePoint Server)
Modifier un fichier de mots parasites (Office SharePoint Server)
Modifier un fichier du dictionnaire de synonymes (Office SharePoint Server)
Créer un dictionnaire personnalisé (Office SharePoint Server 2007)