Partilhar via


Indexes - Analyze

Mostra como um analisador divide o texto em tokens.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

Parâmetros do URI

Name Em Necessário Tipo Description
endpoint
path True

string

A URL do ponto de extremidade do serviço de pesquisa.

indexName
path True

string

O nome do índice para o qual testar um analisador.

api-version
query True

string

Versão da API do cliente.

Cabeçalho do Pedido

Name Necessário Tipo Description
x-ms-client-request-id

string

uuid

O ID de rastreamento enviado com a solicitação para ajudar com a depuração.

Corpo do Pedido

Name Necessário Tipo Description
text True

string

O texto para dividir em tokens.

analyzer

LexicalAnalyzerName

O nome do analisador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um tokenizador. Os parâmetros do tokenizador e do analisador são mutuamente exclusivos.

charFilters

CharFilterName[]

Uma lista opcional de filtros de caracteres para usar ao quebrar o texto determinado. Este parâmetro só pode ser definido ao usar o parâmetro tokenizer.

tokenFilters

TokenFilterName[]

Uma lista opcional de filtros de token para usar ao quebrar o texto fornecido. Este parâmetro só pode ser definido ao usar o parâmetro tokenizer.

tokenizer

LexicalTokenizerName

O nome do tokenizador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um analisador. Os parâmetros do tokenizador e do analisador são mutuamente exclusivos.

Respostas

Name Tipo Description
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Resposta de erro.

Exemplos

SearchServiceIndexAnalyze

Pedido de amostra

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Resposta da amostra

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definições

Name Description
AnalyzedTokenInfo

Informações sobre um token retornado por um analisador.

AnalyzeRequest

Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.

AnalyzeResult

O resultado do teste de um analisador em texto.

CharFilterName

Define os nomes de todos os filtros de caracteres suportados pelo mecanismo de pesquisa.

ErrorAdditionalInfo

O erro de gerenciamento de recursos informações adicionais.

ErrorDetail

O detalhe do erro.

ErrorResponse

Resposta de erro

LexicalAnalyzerName

Define os nomes de todos os analisadores de texto suportados pelo mecanismo de pesquisa.

LexicalTokenizerName

Define os nomes de todos os tokenizadores suportados pelo mecanismo de pesquisa.

TokenFilterName

Define os nomes de todos os filtros de token suportados pelo mecanismo de pesquisa.

AnalyzedTokenInfo

Informações sobre um token retornado por um analisador.

Name Tipo Description
endOffset

integer

O índice do último caractere do token no texto de entrada.

position

integer

A posição do token no texto de entrada em relação a outros tokens. O primeiro token no texto de entrada tem a posição 0, o próximo tem a posição 1 e assim por diante. Dependendo do analisador usado, alguns tokens podem ter a mesma posição, por exemplo, se forem sinônimos uns dos outros.

startOffset

integer

O índice do primeiro caractere do token no texto de entrada.

token

string

O token retornado pelo analisador.

AnalyzeRequest

Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.

Name Tipo Description
analyzer

LexicalAnalyzerName

O nome do analisador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um tokenizador. Os parâmetros do tokenizador e do analisador são mutuamente exclusivos.

charFilters

CharFilterName[]

Uma lista opcional de filtros de caracteres para usar ao quebrar o texto determinado. Este parâmetro só pode ser definido ao usar o parâmetro tokenizer.

text

string

O texto para dividir em tokens.

tokenFilters

TokenFilterName[]

Uma lista opcional de filtros de token para usar ao quebrar o texto fornecido. Este parâmetro só pode ser definido ao usar o parâmetro tokenizer.

tokenizer

LexicalTokenizerName

O nome do tokenizador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um analisador. Os parâmetros do tokenizador e do analisador são mutuamente exclusivos.

AnalyzeResult

O resultado do teste de um analisador em texto.

Name Tipo Description
tokens

AnalyzedTokenInfo[]

A lista de tokens retornados pelo analisador especificado na solicitação.

CharFilterName

Define os nomes de todos os filtros de caracteres suportados pelo mecanismo de pesquisa.

Name Tipo Description
html_strip

string

Um filtro de caracteres que tenta remover construções HTML. Visualizar https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

O erro de gerenciamento de recursos informações adicionais.

Name Tipo Description
info

object

As informações adicionais.

type

string

O tipo de informação adicional.

ErrorDetail

O detalhe do erro.

Name Tipo Description
additionalInfo

ErrorAdditionalInfo[]

O erro informações adicionais.

code

string

O código de erro.

details

ErrorDetail[]

Os detalhes do erro.

message

string

A mensagem de erro.

target

string

O destino do erro.

ErrorResponse

Resposta de erro

Name Tipo Description
error

ErrorDetail

O objeto de erro.

LexicalAnalyzerName

Define os nomes de todos os analisadores de texto suportados pelo mecanismo de pesquisa.

Name Tipo Description
ar.lucene

string

Analisador de Lucene para árabe.

ar.microsoft

string

Microsoft analyzer para árabe.

bg.lucene

string

Lucene analisador para búlgaro.

bg.microsoft

string

Microsoft analyzer para búlgaro.

bn.microsoft

string

Microsoft analyzer para Bangla.

ca.lucene

string

Lucene analisador para catalão.

ca.microsoft

string

Microsoft analyzer para catalão.

cs.lucene

string

Lucene analisador para checo.

cs.microsoft

string

Microsoft analyzer para checo.

da.lucene

string

Lucene analisador para dinamarquês.

da.microsoft

string

Microsoft analyzer para dinamarquês.

de.lucene

string

Lucene analisador para alemão.

de.microsoft

string

Microsoft analyzer para alemão.

el.lucene

string

Analisador de Lucene para grego.

el.microsoft

string

Microsoft analyzer para grego.

en.lucene

string

Analisador Lucene para Inglês.

en.microsoft

string

Microsoft analyzer para inglês.

es.lucene

string

Analisador Lucene para espanhol.

es.microsoft

string

Microsoft analyzer para espanhol.

et.microsoft

string

Microsoft analyzer para estónio.

eu.lucene

string

Analisador Lucene para basco.

fa.lucene

string

Analisador de Lucene para persa.

fi.lucene

string

Analisador de Lucene para finlandês.

fi.microsoft

string

Microsoft analyzer para finlandês.

fr.lucene

string

Analisador Lucene para francês.

fr.microsoft

string

Microsoft analyzer para francês.

ga.lucene

string

Lucene analisador para irlandês.

gl.lucene

string

Lucene analisador para galego.

gu.microsoft

string

Microsoft analyzer para Gujarati.

he.microsoft

string

Microsoft analyzer para hebraico.

hi.lucene

string

Analisador de Lucene para Hindi.

hi.microsoft

string

Microsoft analyzer para Hindi.

hr.microsoft

string

Microsoft analyzer para croata.

hu.lucene

string

Lucene analisador para húngaro.

hu.microsoft

string

Microsoft analyzer para húngaro.

hy.lucene

string

Analisador de Lucene para arménio.

id.lucene

string

Analisador de Lucene para indonésio.

id.microsoft

string

Microsoft analyzer para indonésio (Bahasa).

is.microsoft

string

Microsoft analyzer para islandês.

it.lucene

string

Analisador Lucene para italiano.

it.microsoft

string

Microsoft analyzer para italiano.

ja.lucene

string

Analisador Lucene para japonês.

ja.microsoft

string

Microsoft analyzer para japonês.

keyword

string

Trata todo o conteúdo de um campo como um único token. Isso é útil para dados como códigos postais, ids e alguns nomes de produtos. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Microsoft analyzer para Kannada.

ko.lucene

string

Analisador Lucene para coreano.

ko.microsoft

string

Microsoft analyzer para coreano.

lt.microsoft

string

Microsoft analyzer para lituano.

lv.lucene

string

Analisador Lucene para letão.

lv.microsoft

string

Microsoft analyzer para letão.

ml.microsoft

string

Microsoft analyzer para Malayalam.

mr.microsoft

string

Analisador Microsoft para Marathi.

ms.microsoft

string

Microsoft analyzer para malaio (latim).

nb.microsoft

string

Analisador Microsoft para norueguês (Bokmål).

nl.lucene

string

Analisador Lucene para holandês.

nl.microsoft

string

Microsoft analyzer para holandês.

no.lucene

string

Analisador Lucene para norueguês.

pa.microsoft

string

Microsoft analyzer para Punjabi.

pattern

string

Separa o texto de forma flexível em termos através de um padrão de expressão regular. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Analisador de Lucene para polaco.

pl.microsoft

string

Microsoft analyzer para polonês.

pt-BR.lucene

string

Analisador Lucene para Português (Brasil).

pt-BR.microsoft

string

Microsoft analyzer para Português (Brasil).

pt-PT.lucene

string

Analisador de Lucene para Português (Portugal).

pt-PT.microsoft

string

Microsoft analyzer para Português (Portugal).

ro.lucene

string

Lucene analisador para romeno.

ro.microsoft

string

Microsoft analyzer para romeno.

ru.lucene

string

Lucene analisador para russo.

ru.microsoft

string

Microsoft analyzer para russo.

simple

string

Divide o texto em letras não escritas e converte-as em minúsculas. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Microsoft analyzer para eslovaco.

sl.microsoft

string

Microsoft analyzer para esloveno.

sr-cyrillic.microsoft

string

Microsoft analyzer para sérvio (cirílico).

sr-latin.microsoft

string

Microsoft analyzer para sérvio (latim).

standard.lucene

string

Analisador Lucene padrão.

standardasciifolding.lucene

string

Analisador padrão ASCII Folding Lucene. Visualizar https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Divide o texto em não-letras; Aplica os filtros de token minúsculo e stopword. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Lucene analisador para sueco.

sv.microsoft

string

Microsoft analyzer para sueco.

ta.microsoft

string

Microsoft analyzer para Tamil.

te.microsoft

string

Microsoft analyzer para Telugu.

th.lucene

string

Lucene analisador para tailandês.

th.microsoft

string

Microsoft analyzer para tailandês.

tr.lucene

string

Lucene analisador para turco.

tr.microsoft

string

Microsoft analyzer para turco.

uk.microsoft

string

Microsoft analyzer para ucraniano.

ur.microsoft

string

Microsoft analyzer para Urdu.

vi.microsoft

string

Microsoft analyzer para vietnamita.

whitespace

string

Um analisador que usa o tokenizador de espaço em branco. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Analisador Lucene para chinês (simplificado).

zh-Hans.microsoft

string

Microsoft analyzer para chinês (simplificado).

zh-Hant.lucene

string

Analisador de Lucene para chinês (tradicional).

zh-Hant.microsoft

string

Microsoft analyzer para chinês (tradicional).

LexicalTokenizerName

Define os nomes de todos os tokenizadores suportados pelo mecanismo de pesquisa.

Name Tipo Description
classic

string

Tokenizador baseado em gramática que é adequado para processar a maioria dos documentos em língua europeia. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokeniza a entrada de uma borda em n-gramas do(s) tamanho(s) determinado(s). Visualizar https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Emite toda a entrada como um único token. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Divide o texto em letras não-letras. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Divide o texto em letras não escritas e converte-as em minúsculas. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Divide o texto usando regras específicas do idioma e reduz as palavras às suas formas base.

microsoft_language_tokenizer

string

Divide o texto usando regras específicas do idioma.

nGram

string

Tokeniza a entrada em n-gramas do(s) tamanho(s) fornecido(s). Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizador para hierarquias semelhantes a caminhos. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizador que usa a correspondência de padrões regex para construir tokens distintos. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Analisador padrão de Lucene; Composto pelo tokenizador padrão, filtro minúsculo e filtro stop. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Tokeniza urls e e-mails como um token. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Divide o texto no espaço em branco. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Define os nomes de todos os filtros de token suportados pelo mecanismo de pesquisa.

Name Tipo Description
apostrophe

string

Tira todos os caracteres após um apóstrofo (incluindo o próprio apóstrofo). Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Um filtro simbólico que aplica o normalizador árabe para normalizar a ortografia. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Basic Latin") em seus equivalentes ASCII, se tais equivalentes existirem. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Forma bigramas de termos CJK que são gerados a partir do tokenizador padrão. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normaliza as diferenças de largura do CJK. Dobra variantes ASCII de largura total no latim básico equivalente e variantes Katakana de meia largura no Kana equivalente. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Remove possessivos em inglês e pontos de siglas. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Construa bigramas para termos frequentes durante a indexação. Os termos isolados também continuam indexados, com bigramas sobrepostos. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Gera n-gramas do(s) tamanho(s) determinado(s) a partir da frente ou do verso de um token de entrada. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (avião). Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normaliza caracteres alemães de acordo com a heurística do algoritmo de bola de neve German2. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normaliza o texto em hindi para remover algumas diferenças nas variações ortográficas. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normaliza a representação Unicode de texto em idiomas indianos. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Emite cada token recebido duas vezes, uma como palavra-chave e outra como não-palavra-chave. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Um filtro kstem de alto desempenho para inglês. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Remove palavras muito longas ou curtas. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Limita o número de tokens durante a indexação. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normaliza o texto do token para minúsculas. Visualizar https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Gera n-gramas do(s) tamanho(s) fornecido(s). Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Aplica normalização para persa. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Crie tokens para correspondências fonéticas. Visualizar https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Usa o algoritmo de derivação de Porter para transformar o fluxo de token. Visualizar http://tartarus.org/~martin/PorterStemmer

reverse

string

Inverte a cadeia de caracteres do token. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Dobra caracteres escandinavos åÅäæÄÆ->a e öÖøØ->o. Também discrimina o uso de vogais duplas aa, ae, ao, oe e oo, deixando apenas a primeira. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normaliza o uso dos caracteres escandinavos intercambiáveis. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Cria combinações de tokens como um único token. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Um filtro que deriva palavras usando um lematizador gerado por Bola-de-Neve. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normaliza a representação Unicode do texto de Sorani. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Filtro de derivação específico da linguagem. Visualizar https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Remove palavras de parada de um fluxo de token. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Corta o espaço em branco à esquerda e à direita dos tokens. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Trunca os termos até um comprimento específico. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Filtra tokens com o mesmo texto do token anterior. Visualizar http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normaliza o texto do token para maiúsculas. Visualizar https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Divide palavras em subpalavras e executa transformações opcionais em grupos de subpalavras.