Indexes - Analyze

Referência

Serviço:: Search Service

Versão da API:: 2024-07-01

Mostra como um analisador divide o texto em tokens.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

Parâmetros do URI

Name	Em	Necessário	Tipo	Description
endpoint	path	True	string	A URL do ponto de extremidade do serviço de pesquisa.
indexName	path	True	string	O nome do índice para o qual testar um analisador.
api-version	query	True	string	Versão da API do cliente.

Cabeçalho do Pedido

Name	Necessário	Tipo	Description
x-ms-client-request-id		string uuid	O ID de rastreamento enviado com a solicitação para ajudar com a depuração.

Corpo do Pedido

Name	Necessário	Tipo	Description
text	True	string	O texto para dividir em tokens.
analyzer		LexicalAnalyzerName	O nome do analisador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um tokenizador. Os parâmetros do tokenizador e do analisador são mutuamente exclusivos.
charFilters		CharFilterName[]	Uma lista opcional de filtros de caracteres para usar ao quebrar o texto determinado. Este parâmetro só pode ser definido ao usar o parâmetro tokenizer.
tokenFilters		TokenFilterName[]	Uma lista opcional de filtros de token para usar ao quebrar o texto fornecido. Este parâmetro só pode ser definido ao usar o parâmetro tokenizer.
tokenizer		LexicalTokenizerName	O nome do tokenizador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um analisador. Os parâmetros do tokenizador e do analisador são mutuamente exclusivos.

Respostas

Name	Tipo	Description
200 OK	AnalyzeResult
Other Status Codes	ErrorResponse	Resposta de erro.

Exemplos

SearchServiceIndexAnalyze

Pedido de amostra

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Resposta da amostra

Código de estado:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definições

Name	Description
AnalyzedTokenInfo	Informações sobre um token retornado por um analisador.
AnalyzeRequest	Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.
AnalyzeResult	O resultado do teste de um analisador em texto.
CharFilterName	Define os nomes de todos os filtros de caracteres suportados pelo mecanismo de pesquisa.
ErrorAdditionalInfo	O erro de gerenciamento de recursos informações adicionais.
ErrorDetail	O detalhe do erro.
ErrorResponse	Resposta de erro
LexicalAnalyzerName	Define os nomes de todos os analisadores de texto suportados pelo mecanismo de pesquisa.
LexicalTokenizerName	Define os nomes de todos os tokenizadores suportados pelo mecanismo de pesquisa.
TokenFilterName	Define os nomes de todos os filtros de token suportados pelo mecanismo de pesquisa.

AnalyzedTokenInfo

Informações sobre um token retornado por um analisador.

Name	Tipo	Description
endOffset	integer	O índice do último caractere do token no texto de entrada.
position	integer	A posição do token no texto de entrada em relação a outros tokens. O primeiro token no texto de entrada tem a posição 0, o próximo tem a posição 1 e assim por diante. Dependendo do analisador usado, alguns tokens podem ter a mesma posição, por exemplo, se forem sinônimos uns dos outros.
startOffset	integer	O índice do primeiro caractere do token no texto de entrada.
token	string	O token retornado pelo analisador.

AnalyzeRequest

Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.

Name	Tipo	Description
analyzer	LexicalAnalyzerName	O nome do analisador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um tokenizador. Os parâmetros do tokenizador e do analisador são mutuamente exclusivos.
charFilters	CharFilterName[]	Uma lista opcional de filtros de caracteres para usar ao quebrar o texto determinado. Este parâmetro só pode ser definido ao usar o parâmetro tokenizer.
text	string	O texto para dividir em tokens.
tokenFilters	TokenFilterName[]	Uma lista opcional de filtros de token para usar ao quebrar o texto fornecido. Este parâmetro só pode ser definido ao usar o parâmetro tokenizer.
tokenizer	LexicalTokenizerName	O nome do tokenizador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um analisador. Os parâmetros do tokenizador e do analisador são mutuamente exclusivos.

AnalyzeResult

O resultado do teste de um analisador em texto.

Name	Tipo	Description
tokens	AnalyzedTokenInfo[]	A lista de tokens retornados pelo analisador especificado na solicitação.

CharFilterName

Define os nomes de todos os filtros de caracteres suportados pelo mecanismo de pesquisa.

Name	Tipo	Description
html_strip	string	Um filtro de caracteres que tenta remover construções HTML. Visualizar https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

O erro de gerenciamento de recursos informações adicionais.

Name	Tipo	Description
info	object	As informações adicionais.
type	string	O tipo de informação adicional.

ErrorDetail

O detalhe do erro.

Name	Tipo	Description
additionalInfo	ErrorAdditionalInfo[]	O erro informações adicionais.
code	string	O código de erro.
details	ErrorDetail[]	Os detalhes do erro.
message	string	A mensagem de erro.
target	string	O destino do erro.

ErrorResponse

Resposta de erro

Name	Tipo	Description
error	ErrorDetail	O objeto de erro.

LexicalAnalyzerName

Define os nomes de todos os analisadores de texto suportados pelo mecanismo de pesquisa.

Name	Tipo	Description
ar.lucene	string	Analisador de Lucene para árabe.
ar.microsoft	string	Microsoft analyzer para árabe.
bg.lucene	string	Lucene analisador para búlgaro.
bg.microsoft	string	Microsoft analyzer para búlgaro.
bn.microsoft	string	Microsoft analyzer para Bangla.
ca.lucene	string	Lucene analisador para catalão.
ca.microsoft	string	Microsoft analyzer para catalão.
cs.lucene	string	Lucene analisador para checo.
cs.microsoft	string	Microsoft analyzer para checo.
da.lucene	string	Lucene analisador para dinamarquês.
da.microsoft	string	Microsoft analyzer para dinamarquês.
de.lucene	string	Lucene analisador para alemão.
de.microsoft	string	Microsoft analyzer para alemão.
el.lucene	string	Analisador de Lucene para grego.
el.microsoft	string	Microsoft analyzer para grego.
en.lucene	string	Analisador Lucene para Inglês.
en.microsoft	string	Microsoft analyzer para inglês.
es.lucene	string	Analisador Lucene para espanhol.
es.microsoft	string	Microsoft analyzer para espanhol.
et.microsoft	string	Microsoft analyzer para estónio.
eu.lucene	string	Analisador Lucene para basco.
fa.lucene	string	Analisador de Lucene para persa.
fi.lucene	string	Analisador de Lucene para finlandês.
fi.microsoft	string	Microsoft analyzer para finlandês.
fr.lucene	string	Analisador Lucene para francês.
fr.microsoft	string	Microsoft analyzer para francês.
ga.lucene	string	Lucene analisador para irlandês.
gl.lucene	string	Lucene analisador para galego.
gu.microsoft	string	Microsoft analyzer para Gujarati.
he.microsoft	string	Microsoft analyzer para hebraico.
hi.lucene	string	Analisador de Lucene para Hindi.
hi.microsoft	string	Microsoft analyzer para Hindi.
hr.microsoft	string	Microsoft analyzer para croata.
hu.lucene	string	Lucene analisador para húngaro.
hu.microsoft	string	Microsoft analyzer para húngaro.
hy.lucene	string	Analisador de Lucene para arménio.
id.lucene	string	Analisador de Lucene para indonésio.
id.microsoft	string	Microsoft analyzer para indonésio (Bahasa).
is.microsoft	string	Microsoft analyzer para islandês.
it.lucene	string	Analisador Lucene para italiano.
it.microsoft	string	Microsoft analyzer para italiano.
ja.lucene	string	Analisador Lucene para japonês.
ja.microsoft	string	Microsoft analyzer para japonês.
keyword	string	Trata todo o conteúdo de um campo como um único token. Isso é útil para dados como códigos postais, ids e alguns nomes de produtos. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
kn.microsoft	string	Microsoft analyzer para Kannada.
ko.lucene	string	Analisador Lucene para coreano.
ko.microsoft	string	Microsoft analyzer para coreano.
lt.microsoft	string	Microsoft analyzer para lituano.
lv.lucene	string	Analisador Lucene para letão.
lv.microsoft	string	Microsoft analyzer para letão.
ml.microsoft	string	Microsoft analyzer para Malayalam.
mr.microsoft	string	Analisador Microsoft para Marathi.
ms.microsoft	string	Microsoft analyzer para malaio (latim).
nb.microsoft	string	Analisador Microsoft para norueguês (Bokmål).
nl.lucene	string	Analisador Lucene para holandês.
nl.microsoft	string	Microsoft analyzer para holandês.
no.lucene	string	Analisador Lucene para norueguês.
pa.microsoft	string	Microsoft analyzer para Punjabi.
pattern	string	Separa o texto de forma flexível em termos através de um padrão de expressão regular. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
pl.lucene	string	Analisador de Lucene para polaco.
pl.microsoft	string	Microsoft analyzer para polonês.
pt-BR.lucene	string	Analisador Lucene para Português (Brasil).
pt-BR.microsoft	string	Microsoft analyzer para Português (Brasil).
pt-PT.lucene	string	Analisador de Lucene para Português (Portugal).
pt-PT.microsoft	string	Microsoft analyzer para Português (Portugal).
ro.lucene	string	Lucene analisador para romeno.
ro.microsoft	string	Microsoft analyzer para romeno.
ru.lucene	string	Lucene analisador para russo.
ru.microsoft	string	Microsoft analyzer para russo.
simple	string	Divide o texto em letras não escritas e converte-as em minúsculas. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
sk.microsoft	string	Microsoft analyzer para eslovaco.
sl.microsoft	string	Microsoft analyzer para esloveno.
sr-cyrillic.microsoft	string	Microsoft analyzer para sérvio (cirílico).
sr-latin.microsoft	string	Microsoft analyzer para sérvio (latim).
standard.lucene	string	Analisador Lucene padrão.
standardasciifolding.lucene	string	Analisador padrão ASCII Folding Lucene. Visualizar https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
stop	string	Divide o texto em não-letras; Aplica os filtros de token minúsculo e stopword. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
sv.lucene	string	Lucene analisador para sueco.
sv.microsoft	string	Microsoft analyzer para sueco.
ta.microsoft	string	Microsoft analyzer para Tamil.
te.microsoft	string	Microsoft analyzer para Telugu.
th.lucene	string	Lucene analisador para tailandês.
th.microsoft	string	Microsoft analyzer para tailandês.
tr.lucene	string	Lucene analisador para turco.
tr.microsoft	string	Microsoft analyzer para turco.
uk.microsoft	string	Microsoft analyzer para ucraniano.
ur.microsoft	string	Microsoft analyzer para Urdu.
vi.microsoft	string	Microsoft analyzer para vietnamita.
whitespace	string	Um analisador que usa o tokenizador de espaço em branco. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html
zh-Hans.lucene	string	Analisador Lucene para chinês (simplificado).
zh-Hans.microsoft	string	Microsoft analyzer para chinês (simplificado).
zh-Hant.lucene	string	Analisador de Lucene para chinês (tradicional).
zh-Hant.microsoft	string	Microsoft analyzer para chinês (tradicional).

LexicalTokenizerName

Define os nomes de todos os tokenizadores suportados pelo mecanismo de pesquisa.

Name	Tipo	Description
classic	string	Tokenizador baseado em gramática que é adequado para processar a maioria dos documentos em língua europeia. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	string	Tokeniza a entrada de uma borda em n-gramas do(s) tamanho(s) determinado(s). Visualizar https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	string	Emite toda a entrada como um único token. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	string	Divide o texto em letras não-letras. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	string	Divide o texto em letras não escritas e converte-as em minúsculas. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_stemming_tokenizer	string	Divide o texto usando regras específicas do idioma e reduz as palavras às suas formas base.
microsoft_language_tokenizer	string	Divide o texto usando regras específicas do idioma.
nGram	string	Tokeniza a entrada em n-gramas do(s) tamanho(s) fornecido(s). Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	string	Tokenizador para hierarquias semelhantes a caminhos. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	string	Tokenizador que usa a correspondência de padrões regex para construir tokens distintos. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	string	Analisador padrão de Lucene; Composto pelo tokenizador padrão, filtro minúsculo e filtro stop. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	string	Tokeniza urls e e-mails como um token. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	string	Divide o texto no espaço em branco. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Define os nomes de todos os filtros de token suportados pelo mecanismo de pesquisa.

Name	Tipo	Description
apostrophe	string	Tira todos os caracteres após um apóstrofo (incluindo o próprio apóstrofo). Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
arabic_normalization	string	Um filtro simbólico que aplica o normalizador árabe para normalizar a ortografia. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
asciifolding	string	Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Basic Latin") em seus equivalentes ASCII, se tais equivalentes existirem. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	string	Forma bigramas de termos CJK que são gerados a partir do tokenizador padrão. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	string	Normaliza as diferenças de largura do CJK. Dobra variantes ASCII de largura total no latim básico equivalente e variantes Katakana de meia largura no Kana equivalente. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	string	Remove possessivos em inglês e pontos de siglas. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	string	Construa bigramas para termos frequentes durante a indexação. Os termos isolados também continuam indexados, com bigramas sobrepostos. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	string	Gera n-gramas do(s) tamanho(s) determinado(s) a partir da frente ou do verso de um token de entrada. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	string	Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (avião). Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	string	Normaliza caracteres alemães de acordo com a heurística do algoritmo de bola de neve German2. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	string	Normaliza o texto em hindi para remover algumas diferenças nas variações ortográficas. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	string	Normaliza a representação Unicode de texto em idiomas indianos. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	string	Emite cada token recebido duas vezes, uma como palavra-chave e outra como não-palavra-chave. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	string	Um filtro kstem de alto desempenho para inglês. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	string	Remove palavras muito longas ou curtas. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	string	Limita o número de tokens durante a indexação. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	string	Normaliza o texto do token para minúsculas. Visualizar https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
nGram_v2	string	Gera n-gramas do(s) tamanho(s) fornecido(s). Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	string	Aplica normalização para persa. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	string	Crie tokens para correspondências fonéticas. Visualizar https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	string	Usa o algoritmo de derivação de Porter para transformar o fluxo de token. Visualizar http://tartarus.org/~martin/PorterStemmer
reverse	string	Inverte a cadeia de caracteres do token. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_folding	string	Dobra caracteres escandinavos åÅäæÄÆ->a e öÖøØ->o. Também discrimina o uso de vogais duplas aa, ae, ao, oe e oo, deixando apenas a primeira. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
scandinavian_normalization	string	Normaliza o uso dos caracteres escandinavos intercambiáveis. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
shingle	string	Cria combinações de tokens como um único token. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	string	Um filtro que deriva palavras usando um lematizador gerado por Bola-de-Neve. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	string	Normaliza a representação Unicode do texto de Sorani. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	string	Filtro de derivação específico da linguagem. Visualizar https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	string	Remove palavras de parada de um fluxo de token. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	string	Corta o espaço em branco à esquerda e à direita dos tokens. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	string	Trunca os termos até um comprimento específico. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	string	Filtra tokens com o mesmo texto do token anterior. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	string	Normaliza o texto do token para maiúsculas. Visualizar https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	string	Divide palavras em subpalavras e executa transformações opcionais em grupos de subpalavras.

Partilhar via