sys.dm_fts_parser (Transact-SQL)
Aplica-se: SQL Server
Retorna o resultado final da geração de tokens após aplicar uma determinada combinação de separador de palavras, dicionário de sinônimos e lista de palavras irrelevantes a uma entrada de cadeia de caracteres de consulta. O resultado da geração de tokens é equivalente à saída do Mecanismo de Texto Completo para a cadeia de caracteres de consulta especificada.
sys.dm_fts_parser
é uma função de gerenciamento dinâmico.
sys.dm_fts_parser ( 'query_string' , lcid , stoplist_id , accent_sensitivity )
A consulta que você deseja analisar. query_string pode ser uma cadeia de cadeia de caracteres que CONTÉM suporte à sintaxe. Por exemplo, é possível incluir formas flexionadas, uma dicionário de sinônimo e operadores lógicos.
LCID (identificador de localidade) do separador de palavras a ser usado para analisar query_string.
ID da lista de palavras irrelevantes, se houver, a ser usada pelo separador de palavras identificado por lcid. stoplist_id é int. Se você especificar 'NULL', nenhuma lista de palavras irrelevantes será usada. Se especificar 0, será usada a LISTA DE PALAVRAS IRRELEVANTES do sistema.
Uma ID da lista de palavras irrelevantes é exclusiva em um banco de dados. Para obter a ID da lista de palavras irrelevantes para um índice de texto completo em uma determinada tabela, use a exibição de catálogo sys.fulltext_indexes .
Valor Booliano que controla se a pesquisa de texto completo diferencia ou não diacríticos. accent_sensitivity é bit, com um dos seguintes valores:
Valor | A sensibilidade ao sotaque é... |
---|---|
0 | Não diferencia Palavras como "café" e "cafe" são tratadas da mesma forma. |
1 | Confidencial Palavras como "café" e "cafe" são tratadas de forma diferente. |
Observação
Para exibir a configuração atual desse valor para um catálogo de texto completo, execute a seguinte instrução Transact-SQL: SELECT fulltextcatalogproperty('<catalog_name>', 'AccentSensitivity');
.
Nome da coluna | Tipo de dados | Descrição |
---|---|---|
Palavra-chave | varbinary(128) | A representação hexadecimal de uma determinada palavra-chave retornada por um separador de palavras. Essa representação é usada para armazenar a palavra-chave no índice de texto completo. Esse valor não é legível, mas é útil para relacionar uma determinada palavra-chave à saída retornada por outras exibições de gerenciamento dinâmico que retornam o conteúdo de um índice de texto completo, como sys.dm_fts_index_keywords e sys.dm_fts_index_keywords_by_document. Nota: 0xFF representa o caractere especial que indica o fim de um arquivo ou conjunto de dados. |
group_id | int | Contém um valor de inteiro que é útil para diferenciar o grupo lógico a partir do qual um determinado termo foi gerado. Por exemplo, 'Server AND DB OR FORMSOF(THESAURUS, DB)" ' produz os seguintes valores group_id em inglês:1: Servidor 2: DB 3: DB |
phrase_id | int | Contém um valor inteiro que é útil para diferenciar os casos em que formas alternativas de palavras compostas, como texto completo, são geradas pelo separador de palavras. Às vezes, devido à existência de palavras compostas ('multi-million'), formas alternativas são geradas pelo separador de palavras. Às vezes, essas formas alternativas (frases) precisam ser diferenciadas. Por exemplo, ' multi-million ' produz os seguintes valores phrase_id em inglês:1 para multi 1 para million 2 para multimillion |
occurrence | int | Indica a ordem de cada termo no resultado da análise. Por exemplo, a ocorrência "SQL Server query processor " de frase poderia conter os seguintes valores de ocorrência para os termos da frase em inglês:1 para SQL 2 para Server 3 para query 4 para processor |
special_term | nvarchar(4000) | Contém informações sobre as características do termo que está sendo emitido pelo separador de palavras, um destes: - Correspondência exata - Palavra de ruído - Fim da frase - Fim do parágrafo - Fim do Capítulo |
display_term | nvarchar(4000) | Contém a forma legível da palavra-chave. Como ocorre com as funções criadas para acessar o conteúdo do índice de texto completo, esse termo exibido pode não ser idêntico ao termo original por motivo de limitação de desnormalização. No entanto, ele precisar ser preciso o suficiente para ajudar você a identificá-lo da entrada original. |
expansion_type | int | Contém informações sobre a natureza da expansão de um determinado termo, um destes: 0 = Maiúsculas e minúsculas de uma única palavra 2 = Expansão flexional 4 = Expansão/substituição do dicionário de sinônimos Por exemplo, considere um caso no qual o dicionário de sinônimos define a execução como uma expansão de jog :<expansion> <sub>run</sub> <sub>jog</sub> </expansion> O termo FORMSOF (FREETEXT, run) gera a seguinte saída:run com expansion_type = 0runs com expansion_type = 2running com expansion_type = 2ran com expansion_type = 2jog com expansion_type = 4 |
source_term | nvarchar(4000) | O termo ou frase a partir do qual um determinado termo foi gerado ou analisado. Por exemplo, uma consulta no '"word breakers" AND stemmers' produz os seguintes valores source_term em inglês:word breakers para o display_term word word breakers para o display_term breakers stemmers para o display_term stemmers |
sys.dm_fts_parser
dá suporte à sintaxe e aos recursos de predicados de texto completo, como CONTAINS e FREETEXT, e funções, como CONTAINSTABLE e FREETEXTTABLE.
Quando você analisa uma cadeia de caracteres de consulta, sys.dm_fts_parser
usa a ordenação do banco de dados ao qual você está conectado, a menos que você especifique a cadeia de caracteres de consulta como Unicode. No entanto, para uma cadeia de caracteres não Unicode que contém caracteres especiais, como ü ou ç, a saída pode ser inesperada, dependendo da ordenação do banco de dados. Para processar uma cadeia de caracteres de consulta independentemente da ordenação do banco de dados, prefixe a cadeia de caracteres com N
, ou seja, N'
query_string'
.
Para obter mais informações, consulte C. Exibir a saída de uma cadeia de caracteres que contém caracteres especiais mais adiante neste artigo.
sys.dm_fts_parser
pode ser poderoso para fins de depuração. Alguns dos principais cenários de uso incluem:
Para entender como um determinado separador de palavras trata uma certa entrada
Quando uma consulta retorna resultados inesperados, uma causa provável é a maneira como o separador de palavras está analisando e separando os dados. Usando
sys.dm_fts_parser
o , você descobre o resultado que um separador de palavras passa para o índice de texto completo. Além disso, você pode ver quais termos são palavras irrelevantes, quais não são pesquisados no índice de texto completo. Se um termo é uma palavra irrelevante para um determinado idioma depende se ele está na lista de palavras irrelevantes especificada pelo valor stoplist_id declarado na função.O sinalizador de diferenciação de acentos permite que você veja como o separador de palavras analisa a entrada, tendo em mente suas informações de diferenciação de acento.
Para entender como o lematizador funciona em uma determinada entrada
Você pode saber como o separador de palavras e o lematizador analisam um termo da consulta e suas formas lematizadoras especificando uma consulta CONTAINS ou CONTAINSTABLE contendo a cláusula FORMSOF a seguir:
FORMSOF( INFLECTIONAL, query_term )
Os resultados indicam quais termos estão sendo passados ao índice de texto completo.
Para entender como o dicionário de sinônimos expande ou substitui toda a entrada ou parte dela
Você também pode especificar:
FORMSOF( THESAURUS, query_term )
O resultado dessa consulta mostra como o separador de palavras e o dicionário de sinônimos interagem com relação ao termo da consulta. É possível ver a expansão ou as substituições feitas a partir do dicionário de sinônimos e identificar a consulta resultante que está sendo emitida para o índice de texto completo.
Se o usuário emitir:
FORMSOF( FREETEXT, query_term )
Os recursos flexionais e de dicionário de sinônimos ocorrem automaticamente.
Além dos cenários de uso anteriores, sys.dm_fts_parser
o pode ajudar significativamente a entender e solucionar muitos outros problemas com a consulta de texto completo.
Requer a permissão CREATE FULLTEXT CATALOG e direitos de acesso à lista de palavras irrelevantes especificada.
O exemplo a seguir retorna a saída a partir do uso do separador de palavras em inglês, cujo LCID é 1033, e nenhuma lista de palavras irrelevantes na cadeia de caracteres de consulta a seguir:
The Microsoft business analysis
A distinção de acentos foi desabilitada.
SELECT * FROM sys.dm_fts_parser (' "The Microsoft business analysis" ', 1033, 0, 0);
B. Exibir a saída de um determinado separador de palavras no contexto da filtragem de lista de palavras irrelevantes
O exemplo a seguir retorna a saída a partir do uso do separador de palavras em inglês, cujo LCID é 1033, uma lista de palavras irrelevantes em inglês, cuja ID é 77, na cadeia de caracteres de consulta a seguir:
"The Microsoft business analysis" OR "MS revenue"
A distinção de acentos foi desabilitada.
SELECT * FROM sys.dm_fts_parser (' "The Microsoft business analysis" OR " MS revenue" ', 1033, 77, 0);
O exemplo a seguir usa o Unicode para analisar a cadeia de caracteres franceses a seguir:
français
O exemplo especifica o LCID do idioma francês 1036
e a ID de uma lista de palavras irrelevantes definida pelo usuário 5
. A distinção de acentos está habilitada.
SELECT * FROM sys.dm_fts_parser(N'français', 1036, 5, 1);
- Pesquisa de texto completo e pesquisa semântica Exibições e funções de gerenciamento dinâmico (Transact-SQL)
- Pesquisa de texto completo
- Protegíveis
- Configurar e gerenciar separadores de palavras e lematizadores de pesquisa
- Configurar e gerenciar arquivos de dicionário de sinônimos para pesquisa de texto completo
- Configurar e gerenciar palavras irrelevantes e listas de palavras irrelevantes (stoplists) para pesquisa de texto completo
- Consulta com pesquisa de texto completo