Création d’un extracteur de propriétés personnalisé

Article
09/18/2014

Dernière modification : jeudi 23 juin 2011

S’applique à : SharePoint Server 2010

Dans cet article
Types d’extracteurs de propriétés
Création d’un dictionnaire d’extraction de propriétés personnalisé
Configuration de la phase de traitement d’élément d’extraction de propriétés personnalisé
Création du mappage de propriétés gérées
Configuration d’un affinement de requête personnalisé

Cet article explique comment créer un extracteur de propriétés personnalisé de la manière suivante :

Types d’extracteurs de propriétés

Vous pouvez définir deux genres d’extracteurs de propriétés, basés sur la correspondance de mot entier ou la correspondance de partie de mot.

Extracteurs de propriétés à correspondance de mot entier

Ces extracteurs de propriétés conviennent à la mise en correspondance de chaînes dans toutes les langues à l’exception des langues d’Asie de l’Est (coréen, chinois, japonais et thaï).

Les entrées du dictionnaire personnalisé peuvent être des mots uniques ou une chaîne de mots. La mise en correspondance de la chaîne est effectuée après une segmentation de base du texte en unités lexicales, qui remplace les caractères séparateurs (tels que virgules, signes de ponctuation, signes deux-points et tiret) dans le texte par des espaces. Les extracteurs doivent établir une correspondance avec la chaîne complète après la segmentation de base du texte en unités lexicales.

Notes

La mise en correspondance respecte la casse.

Il est possible de définir jusqu’à trois extracteurs de propriétés personnalisés à correspondance de mot entier dans le pipeline de traitement d’élément. On utilise l’une des phases de traitement d’élément prédéfinies nommées wholewordsextractor1, wholewordsextractor2 et wholewordsextractor3.

Extracteurs de propriétés à correspondance de partie de mot

Ces extracteurs de propriétés conviennent à la mise en correspondance de chaînes dans tous les documents dans les langues d’Asie de l’Est (coréen, chinois, japonais ou thaï), car les mots dans ces langues ne sont pas séparés par des espaces.

Vous pouvez également utiliser cet extracteur de propriétés dans des cas spéciaux où des mises en correspondance de sous-chaînes sont nécessaires, par exemple pour la recherche d’une séquence d’ADN au sein de séquences plus longues. Dans ce cas, le dictionnaire personnalisé contiendrait les séquences d’ADN intéressantes, par exemple « AAAGTCTGAC ». Il établirait une correspondance avec un document contenant la séquence « ATATGAATGGAAAGTCTGACTGATATCTGG ».

Notes

La mise en correspondance respecte la casse.

Il est possible de définir jusqu’à deux extracteurs de propriétés personnalisés à correspondance de partie de mot dans le pipeline de traitement d’élément. On utilise l’une des phases de traitement d’élément prédéfinies nommées wordpartsextractor1 et wordpartsextractor2.

Éléments avec à la fois du contenu d’Asie de l’Est et du contenu autre

Si l’entrée de dictionnaire personnalisé doit établir une correspondance avec des chaînes de documents entourées de mots dans une langue d’Asie de l’Est, un système de mise en correspondance de partie de mot doit être utilisé.

Cela est dû au fait que les mots en langue étrangère dans un document en langue chinoise ou japonaise ne sont pas toujours séparés des caractères chinois ou japonais par un espace.

Création d’un dictionnaire d’extraction de propriétés personnalisé

Le dictionnaire personnalisé définit les mots qui seront recherchés dans les éléments indexés et qui seront indexés dans la propriété gérée associée. Pour plus d’informations sur la syntaxe de fichier XML, voir Schéma de dictionnaire linguistique. Le dictionnaire personnalisé doit avoir le même format que celui indiqué dans l’exemple suivant. Chaque entrée doit avoir une clé et une valeur. Le dictionnaire personnalisé doit être enregistré au format UTF-8 sans marque d’ordre d’octet. Il peut avoir une entrée sans valeur. Dans ce cas, aucune entité ne sera extraite pour cette clé.

La clé est la chaîne qui doit être présente dans l’élément. La mise en correspondance de la clé respecte la casse. Pour faire en sorte que l’extracteur respecte la casse, ajoutez toutes les variantes de casse au dictionnaire.

Notes

Une clé ne doit pas contenir d’apostrophe. En cas de présence d’une apostrophe, le terme ne sera jamais mis en correspondance.

La valeur est la chaîne qui sera extraite dans la propriété analysée associé.

Notes

Il ne doit y avoir aucun espace ou nouvelle ligne après la balise dictionary de fermeture, autrement le dictionnaire génère une erreur.

L’exemple suivant définit un dictionnaire d’extraction de propriétés qui extrait des termes en rapport avec la terminologie du vin. Pour faire en sorte que l’extracteur respecte la casse, l’exemple inclut les variantes de casse pertinentes pour les termes.

<dictionary>
  <entry key="Wine" value="wine" />
  <entry key="wine" value="wine" />
  <entry key="red wine" value="red wine" />
  <entry key="Red wine" value="red wine" />
  <entry key="white wine" value="white wine" />
  <entry key="White wine" value="white wine" />
  <entry key="Chardonnay" value="chardonnay" />
  <entry key="chardonnay" value="chardonnay" />
</dictionary>

L’extracteur de propriétés associé extrait ces termes en rapport avec le vin dans la propriété analysée associée à la phase d’extraction de propriétés personnalisée. La mise en correspondance gère différentes casses des termes et normalise la casse dans la propriété analysée résultante.

Vous trouverez des modèles pour les dictionnaires d’extraction de propriétés dans le dossier de magasin de ressources sur le serveur d’administration. Les modèles se trouvent dans le dossier de fichiers suivant : %FASTSEARCH%\components\resourcestore\dictionaries\matching\

Important

Toute erreur dans le format de votre dictionnaire n’est signalée qu’au moment de l’insertion d’un élément, et non lors du téléchargement du dictionnaire dans le magasin de ressources. Le journal de traitement des éléments contiendra une erreur signalant que le fichier wholewords_extraction1.xml ne peut pas être compilé car il y a une erreur dans l’automaton (format de dictionnaire compilé).

Configuration de la phase de traitement d’élément d’extraction de propriétés personnalisé

Vous devez activer la phase d’extraction de propriétés personnalisée prédéfinie que vous prévoyez d’utiliser.

Pour configurer la phase de traitement d’élément

Sous le nœud d’administration de FAST Search Server 2010 for SharePoint, modifiez %FASTSEARCH%\etc\config_data\DocumentProcessor\OptionalProcessing.xml. Modifiez la définition de phase de propriété d’élément personnalisée appropriée en affectant la valeur yes au paramètre active. Pour plus d’informations, voir Personnalisation de optionalprocessing.xml.
Sur le serveur d’administration, à l’invite de commandes Windows PowerShell, tapez la commande suivante :

psctrl reset

Cette commande réinitialise tous les processeurs d’éléments en cours d’exécution dans le système.

Téléchargez le dictionnaire d’extraction de propriétés personnalisé dans le magasin de ressources FAST Search Server 2010 for SharePoint à l’aide de la commande Windows PowerShellAdd-FASTSearchResource.

Dans l’exemple de code suivant, le nom de votre fichier de dictionnaire modifié est c:\temp\wine_dictionary.xml et vous mettez à jour la phase d’extracteur de propriétés personnalisée nommée wholewordsextractor1.

Add-FASTSearchResource -FilePath c:\temp\wine_dictionary.xml -Path dictionaries\matching\wholewords_extraction1.xml

FilePath indique le chemin d’accès à votre fichier de définition d’extracteur de propriétés personnalisé. Path indique le chemin d’accès relatif au dictionnaire dans le magasin de ressources. Le nom de fichier utilisé dépend de l’extracteur que vous souhaitez configurer. Le Tableau 1 montre la relation entre les extracteurs de propriétés disponibles et le nom de fichier dans le magasin de ressources.

Tableau 1. Relation entre nom d’extracteur et nom de fichier dans le magasin de ressources

Nom d’extracteur	Nom de fichier dans le magasin de ressources (chemin d’accès)
wholewords1	wholewords_extraction1.xml
wholewords2	wholewords_extraction2.xml
wholewords3	wholewords_extraction3.xml
wordparts1	wordparts_extraction1.xml
wordparts2	wordparts_extraction2.xml

Pour plus d’informations sur les commandes du magasin de ressources, voir Applets de commande d’administration sur Microsoft TechNet.

Création du mappage de propriétés gérées

Pour utiliser les données extraites dans des requêtes ou l’affinement de requête, vous devez mapper la propriété analysée extraite à une propriété gérée dans le schéma d’index.

Chaque phase d’extraction de propriétés personnalisée a une propriété analysée associée nommée wholewords1, wholewords2, wholewords3, wordparts1 et wordparts2. Les commandes Windows PowerShell suivantes créent une propriété gérée nommée wineterms et mappent la propriété analysée nommée wholewords1 à la nouvelle propriété gérée.

$cp = Get-FASTSearchMetadataCrawledProperty -Name wholewords1
$mp = New-FASTSearchMetadataManagedProperty -Name wineterms –type 1
$mp.StemmingEnabled=0
$mp.RefinementEnabled=1
$mp.Update()
New-FASTSearchMetadataCrawledPropertyMapping -ManagedProperty $mp -CrawledProperty $cp

Vous affectez la valeur 1 au type de propriété gérée pour indiquer qu’elle aura le type de données string.

La commande $mp.StemmingEnabled=0 signifie que la recherche de radical est désactivée pour cette propriété gérée. Dans la plupart des cas, il s’agit du comportement souhaité pour une propriété extraite.

La commande $mp.RefinementEnabled=1 signifie que l’affinement de requête est activé pour cette propriété gérée.

Pour plus d’informations sur les commandes Windows PowerShell, voir Gérer des propriétés analysées à l’aide de Windows PowerShell et Gérer des propriétés gérées à l’aide de Windows PowerShell sur Microsoft TechNet.

Notes

Vous pouvez également configurer le mappage de propriétés à l’aide de l’interface utilisateur graphique de l’Administration centrale de FAST Search Server 2010 for SharePoint. Pour plus d’informations, voir Gestion des propriétés (éventuellement en anglais) sur Microsoft Office.com.

Configuration d’un affinement de requête personnalisé

Bien que votre extracteur personnalisé soit maintenant configuré, vous ne disposerez pas d’affinement par défaut sur le serveur de recherche frontal.

Suivez les étapes de l’article Ajout d’un affinement au composant WebPart du panneau d’affinement pour configurer l’affinement dans le composant WebPart Panneau d’affinement.

Voir aussi

Concepts

Schéma de dictionnaire linguistique

Partager via

Création d’un extracteur de propriétés personnalisé

Types d’extracteurs de propriétés

Extracteurs de propriétés à correspondance de mot entier

Extracteurs de propriétés à correspondance de partie de mot

Éléments avec à la fois du contenu d’Asie de l’Est et du contenu autre

Création d’un dictionnaire d’extraction de propriétés personnalisé

Configuration de la phase de traitement d’élément d’extraction de propriétés personnalisé

Pour configurer la phase de traitement d’élément

Création du mappage de propriétés gérées

Configuration d’un affinement de requête personnalisé

Voir aussi

Concepts

Ressources supplémentaires