Compartilhar via


Como separadores de palavras, lematizadores e arquivos de palavras de ruído afetam os resultados da pesquisa (Office SharePoint Server 2007)

Separadores de palavras, lematizadores e arquivos de palavras de ruído, também conhecidos como arquivos de "palavra irrelevante", são todos os componentes que fazem parte dos processos de indexação e consulta.

Neste artigo:

  • Separadores de palavras

  • Lematizadores

  • Arquivos de palavras de ruído

Separadores de palavras

Um separador de palavras é um componente usado para separar cadeias de texto em palavras individuais durante processos de indexação e consulta. No processo de indexação, o texto é extraído dos itens do conteúdo como uma cadeia não separada de caracteres. Os separadores de palavras determinam novamente onde inicia e termina cada palavra na cadeia. Além disso, eles separam palavras compostas viabilizando para os usuários o recebimento de consultas de uma parte da palavra original e dos termos individuais que formam a palavra composta. Os separadores de palavras também convertem os números e datas dos itens do conteúdo para um formato padrão.

Cada idioma possui um separador de palavras diferente. O mecanismo de indexação decidirá o separador a ser utilizado e, se detectar mais de um idioma, se recorrerá a mais de um separador no texto de um único documento. Na ausência de um separador de palavras específico para um idioma, ele lança mão do separador de palavras genérico.

Os separadores de palavras também são usados pelo mecanismo de consulta. Quando um usuário envia uma consulta, um separador de palavras é usado para desmembrar palavras compostas e frases. Isso aumenta as chances de que a consulta do usuário possa corresponder aos termos do índice de conteúdo. Durante uma consulta, o idioma do separador de palavras é determinado pelo idioma do navegador da Web do usuário.

Por padrão, o Microsoft Office SharePoint Server 2007 instalará os separadores de palavras listados na tabela a seguir em cada servidor em um farm do SharePoint.

Árabe

Húngaro

Punjabi

Bengali

Islandês

Romeno

Búlgaro

Indonésio

Russo

Catalão

Italiano

Sérvio - Cirílico

Croata

Japonês

Sérvio - Latim

Tcheco

Kannada

Eslovaco

Dinamarquês

Coreano

Esloveno

Holandês

Letão

Espanhol

Inglês

Lituano

Sueco

Finlandês

Malaio

Tâmil

Francês

Malaiala

Télugo

Alemão

Marati

Tailandês

Grego

Norueguês - Bokmal

Turco

Gujarati

Polonês

Ucraniano

Hebraico

Português

Urdu

Hindi

Português - Brasil

Vietnamita

Lematizadores

Um lematizador é um componente que localiza a palavra-raiz de um termo e pode gerar variações para ela. Por exemplo, em inglês, ao consultar uma expressão que contenha a palavra "bought", o lematizador poderá adicionar à consulta o termo-raiz "buy" e outras variações (por exemplo, "buys", "buying") geradas por ele.

Os lematizadores são específicos de idioma e podem ter recursos diferentes dependendo do idioma que aceitam. Alguns lematizadores encontram a palavra raiz, mas não geram formas adicionais de palavras. Por padrão, a lematização é desativada durante consultas de muitos idiomas. Você pode habilitar a lematização para consultas de pesquisa na Web Part Principais Resultados da Pesquisa.

Dica

Cada idioma que tenha um separador de palavras tem um lematizador, se esse idioma oferecer suporte a lematização. Para alguns idiomas, os lematizadores são instalados porém não habilitados. Para habilitá-los, é necessário editar o Registro. Para obter instruções sobre como habilitar os lematizadores para esses idiomas específicos, consulte o artigo sobre ativação de separadores de palavras e lematizadores no SharePoint Server 2007 (https://go.microsoft.com/fwlink/?linkid=141180&clcid=0x416).

Arquivos de palavras de ruído

Certas palavras do idioma podem não são úteis para pesquisa. Por exemplo, no inglês, "the" e "an" agregam pouco valor à pesquisa, pois praticamente todo documento escrito nessa língua conterá tais palavras. Esse tipo de vocábulo que representa pouco para pesquisa é denominado palavra de ruído ou palavra irrelevante. O processo de indexação removerá as palavras desse tipo a fim de reduzir o tamanho dos índices. Elas serão mantidas em arquivos de texto específicos do idioma e que você pode editar. Nesses arquivos, para remover ou adicionar palavras, é necessário executar um rastreamento completo do conteúdo. Para obter mais informações, consulte Editar um arquivo do Word com ruído (Office SharePoint Server).

Os arquivos de palavras de ruído mudaram significativamente em relação às versões anteriores dos produtos do SharePoint. Muitos vocábulos anteriormente incluídos nos arquivos de palavras de ruído do Office SharePoint Server 2007 foram removidos e adicionados aos índices de conteúdo. Por padrão, os usuários podem fazer consultas nos vocábulos outrora excluídos. Isso é denominado consulta de palavras de ruído. Se desejar, use a Web Part Principais Resultados da Pesquisa para desabilitar essa opção. Adicionalmente, se a consulta contiver uma cadeia de caracteres entre aspas, a palavra de ruído poderá ser substituída por qualquer palavra nos resultados da consulta. Por exemplo (no idioma inglês), se a consulta incluir "configure a server", seus resultados listarão itens de conteúdo que contenham "configure the server" e "configure every server".

Importante

Não remova todas as palavras de um arquivo de palavras de ruído. Esse tipo de arquivo deve ter, pelo menos, uma entrada, nem que seja um simples ponto (.).

Consulte também

Conceitos

Gerenciar configurações para aprimorar os resultados da pesquisa (Office SharePoint Server)
Configurar páginas autoritativas (Office SharePoint Server)
Adicionar termos de palavra-chave com Melhores Opções (Office SharePoint Server)
Editar um arquivo do Word com ruído (Office SharePoint Server)
Editar um arquivo do dicionário de sinônimos (Office SharePoint Server)
Criar um dicionário personalizado (Office SharePoint Server 2007)