Partager via


Configuration de traitement facultatif des éléments

Dernière modification : mardi 16 août 2011

S’applique à : SharePoint Server 2010

Dans cet article
Personnalisation de optionalprocessing.xml
Format du fichier optionalprocessing.xml
Extraction de propriétés
Conversion de documents
Filtrage du contenu offensant

Cette rubrique décrit comment mettre à jour le fichier de configuration pour les étapes facultatives de traitement des éléments dans le pipeline, comme suit :

Personnalisation de optionalprocessing.xml

Vous activez ou désactivez les étapes facultatives de traitement des éléments dans le fichier de configuration optionalprocessing.xml.

Ce fichier de configuration est lu chaque fois que les processeurs d’éléments sont réinitialisés, démarrés ou redémarrés. Le fichier doit contenir le nom et l’état d’activation de chaque étape facultative. Par défaut, toutes les étapes de traitement facultatives sont désactivées.

Pour modifier ce fichier de configuration, vous devez être membre du groupe FASTSearchAdministrators local sur le nœud d’administration de FAST Search Server 2010 for SharePoint.

Notes

Vous pouvez activer ou désactiver les étapes facultatives de traitement des éléments dans optionalprocessing.xml, mais vous ne pouvez pas utiliser ce fichier pour ajouter de nouvelles étapes au pipeline. Pour savoir comment créer une étape, voir Intégration d’un composant de traitement d’élément externe.

Pour modifier ce fichier, utilisez un éditeur de texte ou un éditeur XML.

Pour modifier le fichier optionalprocessing.xml

  1. Sur le nœud d’administration de FAST Search Server 2010 for SharePoint, éditez %FASTSEARCH%\etc\config_data\DocumentProcessor\OptionalProcessing.xml.

  2. Sur le nœud d’administration de FAST Search Server 2010 for SharePoint, exécutez la commande suivante.

    %FASTSEARCH%\bin\psctrl reset

    Cela réinitialise tous les processeurs d’éléments en cours d’exécution sur le système.

Format du fichier optionalprocessing.xml

Le fichier de configuration optionalprocessing.xml a la syntaxe suivante.

<optionalprocessing>
  <processor name="personnameextraction" active="yes|no" />
  <processor name="XMLMapper" active="yes|no" />
  <processor name="OffensiveContentFilter" active="yes|no" />
  <processor name="FFDDumper" active="yes|no" />
  <processor name="wholewordsextractor1" active="yes|no" />
  <processor name="wholewordsextractor2" active="yes|no" />
  <processor name="wholewordsextractor3" active="yes|no" />
  <processor name="wordpartextractor1" active="yes|no" />
  <processor name="wordpartextractor2" active="yes|no" />
  <processor name="SearchExportConverter" active="yes|no" />
</optionalprocessing>

Notes

Vous ne devez pas ajouter ou supprimer des entrées dans le fichier ; remplacez seulement la valeur de l’attribut active d’éléments processor particuliers.

Le tableau 1 décrit les étapes facultatives de traitement des éléments.

Tableau 1. Étapes facultatives de traitement des éléments

Nom de l’étape facultative

Description

personnameextraction

Permet l’extraction de propriété nom de personne intégrée. Pour des informations, voir Extraction de propriétés.

XMLMapper

Permet le mappage du contenu XML par le mappage personnalisé d’éléments XML à des propriétés analysées. Pour des informations, voir Traitement d’élément XML personnalisé.

OffensiveContentFilter

Permet le filtrage intégré du contenu offensant. Cette fonctionnalité supprime les éléments ayant un contenu à caractère pornographique. Pour des informations, voir Filtrage du contenu offensant.

FFDDumper

Spécifie l’étape de débogage avancé du pipeline de traitement des éléments. Vous n’avez normalement pas besoin d’activer cette étape.

Vous ne devez utiliser cette étape qu’en phase de test, car elle a un impact majeur sur la vitesse du flux et peut rapidement saturer le disque dur local (%FASTSEARCH\data\ffd\).

wholewordsextractor1, wholewordsextractor2, wholewordsextractor3

Spécifie les trois étapes disponibles d’extraction de propriété par correspondance de mot entier. Pour des informations, voir Création d’un extracteur de propriétés personnalisé.

wordpartextractor1, wordpartextractor2

Spécifie les deux étapes disponibles d’extraction de propriété par correspondance de partie de mot. Pour des informations, voir Création d’un extracteur de propriétés personnalisé.

SearchExportConverter

Permet la conversion de formats de documents supplémentaires. Pour des informations, voir Conversion de documents.

Notes

Au lieu d’activer ou de désactiver cette fonctionnalité directement dans le fichier de configuration optionalprocessing.xml, suivez la procédure décrite dans Activer le pack de filtrage avancé (FAST Search Server 2010 pour SharePoint) (éventuellement en anglais) sur Microsoft TechNet.

L’exemple suivant montre comment activer la génération d’une propriété analysée personnames, qui contient les noms de personne extraits du contenu traité. Vous activez l’étape en remplaçant la valeur de l’attribut active par yes.

<optionalprocessing>
    <processor name="personnameextraction" active="yes"/>
</optionalprocessing>

L’exemple suivant montre comment activer le mappage de contenu XML à des propriétés analysées.

<optionalprocessing>
    <processor name="XMLMapper" active="yes"/>
</optionalprocessing>

Notes

L’étape de traitement XMLMapper nécessite un fichier de configuration supplémentaire pour le mappage XML. Pour des informations, voir Traitement d’élément XML personnalisé.

Extraction de propriétés

L’extraction de propriétés est un processus qui extrait des informations du contenu textuel visible d’un élément et les stocke sous la forme d’autres propriétés analysées pour le document.

Il y a trois étapes intégrées d’extraction de propriétés dans le pipeline de traitement des éléments FAST Search Server 2010 for SharePoint, qui effectuent les opérations suivantes :

  • L’extracteur de noms de personnes extrait les noms des personnes, en se basant sur un dictionnaire générique. Par défaut, cette étape est désactivée, car FAST Search Server 2010 for SharePoint inclut d’autres fonctionnalités liées à l’extraction des noms de personnes (propriété Auteur et fonctionnalité de recherche de personnes). Si vous souhaitez extraire des noms qui ne sont pas spécifiques à votre société ou votre organisation, vous pouvez activer cette étape dans optionalprocessing.xml.

  • L’extracteur d’emplacement extrait les noms de lieux géographiques, en se basant sur un dictionnaire générique. Cette étape est toujours activée. Si cette extraction de propriété n’est pas pertinente dans votre application, il est inutile de mapper la propriété analysée résultante à une propriété gérée dans l’index.

  • L’extracteur de société extrait les noms de sociétés, en se basant sur un dictionnaire générique. Cette étape est toujours activée. Si cette extraction de propriété n’est pas pertinente dans votre application, il est inutile de mapper la propriété analysée résultante à une propriété gérée dans l’index.

Les étapes d’extraction de propriétés intégrées prennent en charge les langues suivantes :

  • Arabe

  • Néerlandais

  • Anglais

  • Français

  • Allemand

  • Italien

  • Japonais

  • Norvégien

  • Portugais

  • Russe

  • Espagnol

Vous pouvez modifier les extracteurs de propriétés intégrés en ajoutant des listes d’inclusion et des listes d’exclusion. Pour des informations, voir Gérer l’extraction de propriétés (FAST Search Server 2010 pour SharePoint) (éventuellement en anglais) sur Microsoft TechNet.

Vous pouvez également ajouter des extracteurs de propriétés personnalisés au pipeline. Pour cela, vous activez une ou plusieurs étapes de traitement d’élément personnalisé d’espace réservé dans optionalprocessing.xml et créez des dictionnaires associés. Pour des informations, voir Création d’un extracteur de propriétés personnalisé.

Conversion de documents

L’étape de traitement nommée SearchExportConverter contrôle le pack de filtrage avancé FAST Search Server 2010 for SharePoint. Cette fonctionnalité permet l’extraction de texte et de métadonnées à partir de plusieurs centaines de formats de fichiers, ce qui complète les formats de documents pris en charge par le pack de filtrage standard. Par défaut, le pack de filtrage avancé est désactivé.

Notes

Au lieu d’activer ou de désactiver cette fonctionnalité directement dans le fichier de configuration optionalprocessing.xml, suivez la procédure décrite dans Activer le pack de filtrage avancé (FAST Search Server 2010 pour SharePoint) (éventuellement en anglais) sur Microsoft TechNet.

Vous pouvez également déployer des composants IFilter personnalisés développés pour des formats de fichier spécifiques. Cette opération est contrôlée par le biais du fichier de configuration user_converter_rules.xml. Pour des informations, voir Configurer FAST Search Server for SharePoint de façon à utiliser un IFilter tiers.

Filtrage du contenu offensant

Le filtrage du contenu offensant FAST Search Server 2010 for SharePoint est implémenté sous la forme d’une étape distincte de traitement des éléments. Le contenu des éléments analysé par le filtre est comparé aux termes prédéfinis dans les dictionnaires. La sortie du filtre est un score global qui indique la probabilité qu’un élément ait un caractère pornographique. Le score offensant de l’élément est écrit dans OCF::Score de la propriété analysée. Tout élément dont le score dépasse le seuil de 30 est supprimé de l’indexation.

Le filtre de contenu offensant FAST Search Server 2010 for SharePoint utilise des mots simples et des expressions de plusieurs mots comme base de filtrage.

Par défaut, le filtre de contenu offensant n’est pas activé. Vous l’activez à l’aide de la clé d’activation OffensiveContentFilter dans optionalprocessing.xml, comme illustré dans l’exemple suivant.

<optionalprocessing>
      <processor name="OffensiveContentFilter" active="yes"/>
</optionalprocessing>

Notes

Le filtre de contenu offensant n’utilise pas des informations du site et ne prend pas en compte les informations visuelles (images). La fonctionnalité se limite aux pages qui contiennent du texte offensant. Pour de telles pages, elle offre un taux d’identification très élevé.

Vous pouvez activer le filtrage du contenu offensant pour les langues suivantes :

  • Arabe

  • Chinois

  • Tchèque

  • Anglais

  • Finnois

  • Français

  • Allemand

  • Hindi

  • Italien

  • Japonais

  • Coréen

  • Lithuanien

  • Norvégien

  • Russe

  • Espagnol

  • Suédois

  • Turc

Le filtre de contenu offensant scrute les propriétés analysées title, body et ocfcontribution. La dernière propriété n’est pas définie par les robots d’indexation, mais peut être utilisée pour analyser du contenu supplémentaire.

Les éléments considérés comme ayant un caractère pornographique sont éliminés au cours du traitement et des commentaires appropriés sont fournis au connecteur d’indexation.

Voir aussi

Concepts

Création d’un extracteur de propriétés personnalisé

Traitement d’élément XML personnalisé

Configurer FAST Search Server for SharePoint de façon à utiliser un IFilter tiers

Intégration d’un composant de traitement d’élément externe