Condividi tramite


Indexes - Analyze

Illustra come un analizzatore suddivide il testo in token.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

Parametri dell'URI

Nome In Necessario Tipo Descrizione
endpoint
path True

string

URL dell'endpoint del servizio di ricerca.

indexName
path True

string

Nome dell'indice per il quale testare un analizzatore.

api-version
query True

string

Versione dell'API client.

Intestazione della richiesta

Nome Necessario Tipo Descrizione
x-ms-client-request-id

string

uuid

ID di rilevamento inviato con la richiesta per facilitare il debug.

Corpo della richiesta

Nome Necessario Tipo Descrizione
text True

string

Testo da suddividere in token.

analyzer

LexicalAnalyzerName

Nome dell'analizzatore da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un tokenizer. I parametri del tokenizer e dell'analizzatore si escludono a vicenda.

charFilters

CharFilterName[]

Elenco facoltativo di filtri di caratteri da utilizzare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro tokenizer.

tokenFilters

TokenFilterName[]

Elenco facoltativo di filtri di token da usare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro tokenizer.

tokenizer

LexicalTokenizerName

Nome del tokenizer da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un analizzatore. I parametri del tokenizer e dell'analizzatore si escludono a vicenda.

Risposte

Nome Tipo Descrizione
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Risposta di errore.

Esempio

SearchServiceIndexAnalyze

Esempio di richiesta

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Risposta di esempio

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definizioni

Nome Descrizione
AnalyzedTokenInfo

Informazioni su un token restituito da un analizzatore.

AnalyzeRequest

Specifica alcuni componenti di testo e analisi usati per suddividere il testo in token.

AnalyzeResult

Risultato del test di un analizzatore sul testo.

CharFilterName

Definisce i nomi di tutti i filtri di caratteri supportati dal motore di ricerca.

ErrorAdditionalInfo

Informazioni aggiuntive sull'errore di gestione delle risorse.

ErrorDetail

Dettagli dell'errore.

ErrorResponse

Risposta di errore

LexicalAnalyzerName

Definisce i nomi di tutti gli analizzatori di testo supportati dal motore di ricerca.

LexicalTokenizerName

Definisce i nomi di tutti i tokenizer supportati dal motore di ricerca.

TokenFilterName

Definisce i nomi di tutti i filtri di token supportati dal motore di ricerca.

AnalyzedTokenInfo

Informazioni su un token restituito da un analizzatore.

Nome Tipo Descrizione
endOffset

integer

Indice dell'ultimo carattere del token nel testo di input.

position

integer

Posizione del token nel testo di input rispetto ad altri token. Il primo token nel testo di input ha la posizione 0, il successivo ha la posizione 1 e così via. A seconda dell'analizzatore usato, alcuni token potrebbero avere la stessa posizione, ad esempio se sono sinonimi l'uno dell'altro.

startOffset

integer

Indice del primo carattere del token nel testo di input.

token

string

Token restituito dall'analizzatore.

AnalyzeRequest

Specifica alcuni componenti di testo e analisi usati per suddividere il testo in token.

Nome Tipo Descrizione
analyzer

LexicalAnalyzerName

Nome dell'analizzatore da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un tokenizer. I parametri del tokenizer e dell'analizzatore si escludono a vicenda.

charFilters

CharFilterName[]

Elenco facoltativo di filtri di caratteri da utilizzare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro tokenizer.

text

string

Testo da suddividere in token.

tokenFilters

TokenFilterName[]

Elenco facoltativo di filtri di token da usare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro tokenizer.

tokenizer

LexicalTokenizerName

Nome del tokenizer da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un analizzatore. I parametri del tokenizer e dell'analizzatore si escludono a vicenda.

AnalyzeResult

Risultato del test di un analizzatore sul testo.

Nome Tipo Descrizione
tokens

AnalyzedTokenInfo[]

Elenco di token restituiti dall'analizzatore specificato nella richiesta.

CharFilterName

Definisce i nomi di tutti i filtri di caratteri supportati dal motore di ricerca.

Nome Tipo Descrizione
html_strip

string

Filtro di caratteri che tenta di rimuovere i costrutti HTML. Vedere https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Informazioni aggiuntive sull'errore di gestione delle risorse.

Nome Tipo Descrizione
info

object

Informazioni aggiuntive.

type

string

Tipo di informazioni aggiuntive.

ErrorDetail

Dettagli dell'errore.

Nome Tipo Descrizione
additionalInfo

ErrorAdditionalInfo[]

Informazioni aggiuntive sull'errore.

code

string

Codice di errore.

details

ErrorDetail[]

Dettagli dell'errore.

message

string

Messaggio di errore.

target

string

Destinazione dell'errore.

ErrorResponse

Risposta di errore

Nome Tipo Descrizione
error

ErrorDetail

Oggetto error.

LexicalAnalyzerName

Definisce i nomi di tutti gli analizzatori di testo supportati dal motore di ricerca.

Nome Tipo Descrizione
ar.lucene

string

Analizzatore Lucene per l'arabo.

ar.microsoft

string

Analizzatore Microsoft per l'arabo.

bg.lucene

string

Analizzatore Lucene per bulgaro.

bg.microsoft

string

Analizzatore Microsoft per bulgaro.

bn.microsoft

string

Analizzatore Microsoft per Bangla.

ca.lucene

string

Analizzatore Lucene per catalano.

ca.microsoft

string

Analizzatore Microsoft per catalano.

cs.lucene

string

Analizzatore Lucene per ceco.

cs.microsoft

string

Analizzatore Microsoft per ceco.

da.lucene

string

Analizzatore Lucene per danese.

da.microsoft

string

Analizzatore Microsoft per danese.

de.lucene

string

Analizzatore Lucene per tedesco.

de.microsoft

string

Analizzatore Microsoft per tedesco.

el.lucene

string

Analizzatore Lucene per greco.

el.microsoft

string

Analizzatore Microsoft per greco.

en.lucene

string

Analizzatore Lucene per l'inglese.

en.microsoft

string

Analizzatore Microsoft per la lingua inglese.

es.lucene

string

Analizzatore Lucene per spagnolo.

es.microsoft

string

Analizzatore Microsoft per spagnolo.

et.microsoft

string

Analizzatore Microsoft per Estonian.

eu.lucene

string

Analizzatore Lucene per basco.

fa.lucene

string

Analizzatore Lucene per persiano.

fi.lucene

string

Analizzatore Lucene per finlandese.

fi.microsoft

string

Analizzatore Microsoft per il finlandese.

fr.lucene

string

Analizzatore Lucene per francese.

fr.microsoft

string

Analizzatore Microsoft per francese.

ga.lucene

string

Analizzatore Lucene per irlandese.

gl.lucene

string

Analizzatore Lucene per La Galizia.

gu.microsoft

string

Analizzatore Microsoft per Gujarati.

he.microsoft

string

Analizzatore Microsoft per l'ebraico.

hi.lucene

string

Analizzatore Lucene per Hindi.

hi.microsoft

string

Analizzatore Microsoft per Hindi.

hr.microsoft

string

Analizzatore Microsoft per croato.

hu.lucene

string

Analizzatore Lucene per ungherese.

hu.microsoft

string

Analizzatore Microsoft per ungherese.

hy.lucene

string

Analizzatore Lucene per armeno.

id.lucene

string

Analizzatore Lucene per indonesiano.

id.microsoft

string

Analizzatore Microsoft per Indonesiano (Bahasa).

is.microsoft

string

Analizzatore Microsoft per islandese.

it.lucene

string

Analizzatore Lucene per italiano.

it.microsoft

string

Analizzatore Microsoft per italiano.

ja.lucene

string

Analizzatore Lucene per il giapponese.

ja.microsoft

string

Analizzatore Microsoft per il giapponese.

keyword

string

Considera l'intero contenuto di un campo come un singolo token. Ciò è utile per i dati, ad esempio i codici postali, gli ID e alcuni nomi di prodotto. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Analizzatore Microsoft per Kannada.

ko.lucene

string

Analizzatore Lucene per coreano.

ko.microsoft

string

Analizzatore Microsoft per coreano.

lt.microsoft

string

Analizzatore Microsoft per lituano.

lv.lucene

string

Analizzatore Lucene per lettone.

lv.microsoft

string

Analizzatore Microsoft per lettone.

ml.microsoft

string

Analizzatore Microsoft per Malayalam.

mr.microsoft

string

Analizzatore Microsoft per Marathi.

ms.microsoft

string

Analizzatore Microsoft per il malese (alfabeto latino).

nb.microsoft

string

Analizzatore Microsoft per Norvegese (Bokmål).

nl.lucene

string

Analizzatore Lucene per olandese.

nl.microsoft

string

Analizzatore Microsoft per olandese.

no.lucene

string

Analizzatore Lucene per Norvegese.

pa.microsoft

string

Analizzatore Microsoft per Punjabi.

pattern

string

Separa in modo flessibile il testo in termini tramite un criterio di espressione regolare. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Analizzatore Lucene per polacco.

pl.microsoft

string

Analizzatore Microsoft per polacco.

pt-BR.lucene

string

Analizzatore Lucene per portoghese (Brasile).

pt-BR.microsoft

string

Analizzatore Microsoft per portoghese (Brasile).

pt-PT.lucene

string

Analizzatore Lucene per portoghese (Portogallo).

pt-PT.microsoft

string

Analizzatore Microsoft per portoghese (Portogallo).

ro.lucene

string

Analizzatore Lucene per romeno.

ro.microsoft

string

Analizzatore Microsoft per romeno.

ru.lucene

string

Analizzatore Lucene per russo.

ru.microsoft

string

Analizzatore Microsoft per russo.

simple

string

Divide il testo in lettere non e li converte in lettere minuscole. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Analizzatore Microsoft per slovacco.

sl.microsoft

string

Analizzatore Microsoft per sloveno.

sr-cyrillic.microsoft

string

Analizzatore Microsoft per serbo (cirillico).

sr-latin.microsoft

string

Analizzatore Microsoft per serbo (alfabeto latino).

standard.lucene

string

Analizzatore Lucene standard.

standardasciifolding.lucene

string

Analizzatore Lucene di riduzione ASCII standard. Vedere https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Divide il testo in corrispondenza di lettere non; Applica i filtri di token minuscoli e non significative. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Analizzatore Lucene per svedese.

sv.microsoft

string

Analizzatore Microsoft per svedese.

ta.microsoft

string

Analizzatore Microsoft per Tamil.

te.microsoft

string

Analizzatore Microsoft per Telugu.

th.lucene

string

Analizzatore Lucene per Thai.

th.microsoft

string

Analizzatore Microsoft per thai.

tr.lucene

string

Analizzatore Lucene per turco.

tr.microsoft

string

Analizzatore Microsoft per turco.

uk.microsoft

string

Analizzatore Microsoft per ucraino.

ur.microsoft

string

Analizzatore Microsoft per Urdu.

vi.microsoft

string

Analizzatore Microsoft per vietnamiti.

whitespace

string

Analizzatore che usa il tokenizer di spazi vuoti. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Analizzatore Lucene per il cinese (semplificato).

zh-Hans.microsoft

string

Analizzatore Microsoft per il cinese (semplificato).

zh-Hant.lucene

string

Analizzatore Lucene per il cinese (tradizionale).

zh-Hant.microsoft

string

Analizzatore Microsoft per il cinese (tradizionale).

LexicalTokenizerName

Definisce i nomi di tutti i tokenizer supportati dal motore di ricerca.

Nome Tipo Descrizione
classic

string

Tokenizzatore basato su grammatica adatto per l'elaborazione della maggior parte dei documenti in lingua europea. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokenzza l'input da un bordo in n-grammi delle dimensioni specificate. Vedere https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Genera l'intero input come singolo token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Divide il testo in corrispondenza di lettere non. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Divide il testo in lettere non e li converte in lettere minuscole. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Divide il testo usando regole specifiche della lingua e riduce le parole alle relative forme di base.

microsoft_language_tokenizer

string

Divide il testo usando regole specifiche della lingua.

nGram

string

Tokenzza l'input in n-grammi delle dimensioni specificate. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizer per gerarchie simili al percorso. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizer che usa criteri regex corrispondenti per costruire token distinti. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Analizzatore Lucene standard; Composto dal tokenizer standard, dal filtro minuscolo e dal filtro di arresto. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Tokenzza url e messaggi di posta elettronica come un token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Divide il testo in corrispondenza degli spazi vuoti. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Definisce i nomi di tutti i filtri di token supportati dal motore di ricerca.

Nome Tipo Descrizione
apostrophe

string

Rimuove tutti i caratteri dopo un apostrofo (incluso l'apostrofo stesso). Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Filtro token che applica il normalizzatore arabo per normalizzare l'ortografia. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Converte caratteri Unicode alfabetici, numerici e simbolici che non si trovano nei primi 127 caratteri ASCII (blocco Unicode "Latino di base") nei rispettivi equivalenti ASCII, se tali equivalenti esistono. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Forma bigrams dei termini CJK generati dal tokenizer standard. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normalizza le differenze di larghezza CJK. Piega le varianti fullwidth ASCII nell'equivalente alfabeto latino di base e le varianti Katakana a metà larghezza nell'equivalente Kana. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Rimuove i possessivi inglesi e i punti dagli acronimi. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Costruisci bigram per i termini che si verificano di frequente durante l'indicizzazione. Anche i termini singoli sono indicizzati, con bigrams sovrapposti. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Genera n-grammi delle dimensioni specificate a partire dalla parte anteriore o posteriore di un token di input. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Rimuove le elisioni. Ad esempio, "l'avion" (il piano) verrà convertito in "avion" (piano). Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normalizza i caratteri tedeschi in base all'euristica dell'algoritmo snowball German2. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normalizza il testo in hindi per rimuovere alcune differenze nelle varianti ortografiche. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normalizza la rappresentazione Unicode del testo nelle lingue indiane. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Genera ogni token in ingresso due volte, una volta come parola chiave e una volta come parola chiave non. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Filtro kstem ad alte prestazioni per l'inglese. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Rimuove parole troppo lunghe o troppo brevi. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Limita il numero di token durante l'indicizzazione. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normalizza il testo del token in lettere minuscole. Vedere https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Genera n-grammi delle dimensioni specificate. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Applica la normalizzazione per il persiano. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Creare token per corrispondenze fonetiche. Vedere https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Usa l'algoritmo stemming Porter per trasformare il flusso di token. Vedere http://tartarus.org/~martin/PorterStemmer

reverse

string

Inverte la stringa del token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Piega i caratteri scandinavi åÅäæÄÆ->a e öÖøØ->o. Inoltre discrimina l'uso di vocali doppie aa, ae, ao, oe e oo, lasciando solo il primo. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normalizza l'uso dei caratteri scandinavi intercambiabili. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Crea combinazioni di token come singolo token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Filtro che deriva le parole usando uno stemmer generato da Snowball. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normalizza la rappresentazione Unicode del testo Sorani. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Filtro di stemming specifico della lingua. Vedere https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Rimuove le parole non significative da un flusso di token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Taglia gli spazi vuoti iniziali e finali dai token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Tronca i termini a una lunghezza specifica. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Filtra i token con lo stesso testo del token precedente. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normalizza il testo del token in lettere maiuscole. Vedere https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Suddivide le parole in parole secondarie ed esegue trasformazioni facoltative nei gruppi di sottoword.