다음을 통해 공유


Indexes - Analyze

분석기가 텍스트를 토큰으로 나누는 방법을 보여 줍니다.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01

URI 매개 변수

Name In(다음 안에) 필수 형식 Description
endpoint
path True

string

검색 서비스의 엔드포인트 URL입니다.

indexName
path True

string

분석기를 테스트할 인덱스의 이름입니다.

api-version
query True

string

클라이언트 API 버전.

요청 헤더

Name 필수 형식 Description
x-ms-client-request-id

string

uuid

디버깅에 도움이 되도록 요청과 함께 전송된 추적 ID입니다.

요청 본문

Name 필수 형식 Description
text True

string

토큰으로 나누기 위한 텍스트입니다.

analyzer

LexicalAnalyzerName

지정된 텍스트를 중단하는 데 사용할 분석기의 이름입니다. 이 매개 변수를 지정하지 않으면 토큰 변환기를 대신 지정해야 합니다. 토큰라이저 및 분석기 매개 변수는 상호 배타적입니다.

charFilters

CharFilterName[]

지정된 텍스트를 끊을 때 사용할 문자 필터의 선택적 목록입니다. 이 매개 변수는 tokenizer 매개 변수를 사용하는 경우에만 설정할 수 있습니다.

tokenFilters

TokenFilterName[]

지정된 텍스트를 끊을 때 사용할 토큰 필터의 선택적 목록입니다. 이 매개 변수는 tokenizer 매개 변수를 사용하는 경우에만 설정할 수 있습니다.

tokenizer

LexicalTokenizerName

지정된 텍스트를 중단하는 데 사용할 토큰라이저의 이름입니다. 이 매개 변수를 지정하지 않으면 대신 분석기를 지정해야 합니다. 토큰라이저 및 분석기 매개 변수는 상호 배타적입니다.

응답

Name 형식 Description
200 OK

AnalyzeResult

Other Status Codes

SearchError

오류 응답입니다.

예제

SearchServiceIndexAnalyze

샘플 요청

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

샘플 응답

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

정의

Name Description
AnalyzedTokenInfo

분석기에서 반환된 토큰에 대한 정보입니다.

AnalyzeRequest

해당 텍스트를 토큰으로 분리하는 데 사용되는 일부 텍스트 및 분석 구성 요소를 지정합니다.

AnalyzeResult

텍스트에서 분석기를 테스트한 결과입니다.

CharFilterName

검색 엔진에서 지원하는 모든 문자 필터의 이름을 정의합니다.

LexicalAnalyzerName

검색 엔진에서 지원하는 모든 텍스트 분석기의 이름을 정의합니다.

LexicalTokenizerName

검색 엔진에서 지원하는 모든 토큰라이저의 이름을 정의합니다.

SearchError

API에 대한 오류 조건에 대해 설명합니다.

TokenFilterName

검색 엔진에서 지원하는 모든 토큰 필터의 이름을 정의합니다.

AnalyzedTokenInfo

분석기에서 반환된 토큰에 대한 정보입니다.

Name 형식 Description
endOffset

integer

입력 텍스트에 있는 토큰의 마지막 문자 인덱스입니다.

position

integer

다른 토큰을 기준으로 입력 텍스트의 토큰 위치입니다. 입력 텍스트의 첫 번째 토큰은 위치가 0이고, 다음 토큰에는 위치 1이 있습니다. 사용된 분석기 에 따라 일부 토큰의 위치가 같을 수 있습니다(예: 서로 동의어인 경우).

startOffset

integer

입력 텍스트에 있는 토큰의 첫 번째 문자 인덱스입니다.

token

string

분석기에서 반환된 토큰입니다.

AnalyzeRequest

해당 텍스트를 토큰으로 분리하는 데 사용되는 일부 텍스트 및 분석 구성 요소를 지정합니다.

Name 형식 Description
analyzer

LexicalAnalyzerName

지정된 텍스트를 중단하는 데 사용할 분석기의 이름입니다. 이 매개 변수를 지정하지 않으면 토큰 변환기를 대신 지정해야 합니다. 토큰라이저 및 분석기 매개 변수는 상호 배타적입니다.

charFilters

CharFilterName[]

지정된 텍스트를 끊을 때 사용할 문자 필터의 선택적 목록입니다. 이 매개 변수는 tokenizer 매개 변수를 사용하는 경우에만 설정할 수 있습니다.

text

string

토큰으로 나누기 위한 텍스트입니다.

tokenFilters

TokenFilterName[]

지정된 텍스트를 끊을 때 사용할 토큰 필터의 선택적 목록입니다. 이 매개 변수는 tokenizer 매개 변수를 사용하는 경우에만 설정할 수 있습니다.

tokenizer

LexicalTokenizerName

지정된 텍스트를 중단하는 데 사용할 토큰라이저의 이름입니다. 이 매개 변수를 지정하지 않으면 대신 분석기를 지정해야 합니다. 토큰라이저 및 분석기 매개 변수는 상호 배타적입니다.

AnalyzeResult

텍스트에서 분석기를 테스트한 결과입니다.

Name 형식 Description
tokens

AnalyzedTokenInfo[]

요청에 지정된 분석기에서 반환되는 토큰 목록입니다.

CharFilterName

검색 엔진에서 지원하는 모든 문자 필터의 이름을 정의합니다.

Name 형식 Description
html_strip

string

HTML 구문을 제거하려는 문자 필터입니다. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html를 참조하세요.

LexicalAnalyzerName

검색 엔진에서 지원하는 모든 텍스트 분석기의 이름을 정의합니다.

Name 형식 Description
ar.lucene

string

아랍어용 Lucene 분석기입니다.

ar.microsoft

string

아랍어용 Microsoft 분석기.

bg.lucene

string

불가리아어용 Lucene 분석기.

bg.microsoft

string

불가리아어용 Microsoft 분석기.

bn.microsoft

string

Bangla용 Microsoft 분석기.

ca.lucene

string

카탈로니아어용 Lucene 분석기.

ca.microsoft

string

카탈로니아어용 Microsoft 분석기.

cs.lucene

string

체코어용 Lucene 분석기.

cs.microsoft

string

체코용 Microsoft 분석기.

da.lucene

string

덴마크어용 Lucene 분석기.

da.microsoft

string

덴마크어용 Microsoft 분석기.

de.lucene

string

독일어용 Lucene 분석기.

de.microsoft

string

독일어용 Microsoft 분석기.

el.lucene

string

그리스어용 Lucene 분석기.

el.microsoft

string

그리스어용 Microsoft 분석기.

en.lucene

string

영어용 Lucene 분석기입니다.

en.microsoft

string

영어용 Microsoft 분석기.

es.lucene

string

스페인어용 Lucene 분석기.

es.microsoft

string

스페인어용 Microsoft 분석기.

et.microsoft

string

에스토니아어용 Microsoft 분석기.

eu.lucene

string

Basque용 Lucene 분석기.

fa.lucene

string

페르시아어용 Lucene 분석기.

fi.lucene

string

핀란드어용 Lucene 분석기.

fi.microsoft

string

핀란드어용 Microsoft 분석기.

fr.lucene

string

프랑스어용 Lucene 분석기.

fr.microsoft

string

프랑스어용 Microsoft 분석기.

ga.lucene

string

아일랜드어용 Lucene 분석기.

gl.lucene

string

Galician용 Lucene 분석기.

gu.microsoft

string

구자라트어용 Microsoft 분석기.

he.microsoft

string

히브리어용 Microsoft 분석기.

hi.lucene

string

힌디어용 Lucene 분석기.

hi.microsoft

string

힌디어용 Microsoft 분석기.

hr.microsoft

string

크로아티아어용 Microsoft 분석기.

hu.lucene

string

헝가리어용 Lucene 분석기입니다.

hu.microsoft

string

헝가리어용 Microsoft 분석기.

hy.lucene

string

아르메니아어용 Lucene 분석기.

id.lucene

string

인도네시아어용 Lucene 분석기.

id.microsoft

string

인도네시아어용 Microsoft 분석기(Bahasa).

is.microsoft

string

아이슬란드어용 Microsoft 분석기.

it.lucene

string

이탈리아어용 Lucene 분석기입니다.

it.microsoft

string

이탈리아어용 Microsoft 분석기.

ja.lucene

string

일본어용 Lucene 분석기입니다.

ja.microsoft

string

일본어용 Microsoft 분석기.

keyword

string

필드의 전체 콘텐츠를 단일 토큰으로 처리합니다. 우편 번호, ID 및 일부 제품 이름과 같은 데이터에 유용합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html을 참조하십시오.

kn.microsoft

string

Kannada용 Microsoft 분석기.

ko.lucene

string

한국어용 Lucene 분석기.

ko.microsoft

string

한국어용 Microsoft 분석기.

lt.microsoft

string

리투아니아어용 Microsoft 분석기.

lv.lucene

string

라트비아어용 Lucene 분석기.

lv.microsoft

string

라트비아어용 Microsoft 분석기.

ml.microsoft

string

Malayalam용 Microsoft 분석기.

mr.microsoft

string

Marathi용 Microsoft 분석기.

ms.microsoft

string

말레이어용 Microsoft 분석기(라틴어).

nb.microsoft

string

노르웨이어용 Microsoft 분석기(Bokmål).

nl.lucene

string

네덜란드어용 Lucene 분석기.

nl.microsoft

string

네덜란드어용 Microsoft 분석기.

no.lucene

string

노르웨이어용 Lucene 분석기.

pa.microsoft

string

펀잡용 Microsoft 분석기.

pattern

string

정규식 패턴을 통해 텍스트를 용어로 유연하게 구분합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html를 참조하세요.

pl.lucene

string

폴란드어용 Lucene 분석기.

pl.microsoft

string

폴란드어용 Microsoft 분석기.

pt-BR.lucene

string

포르투갈어(브라질)용 Lucene 분석기.

pt-BR.microsoft

string

포르투갈어(브라질)용 Microsoft 분석기.

pt-PT.lucene

string

포르투갈어(포르투갈)용 Lucene 분석기입니다.

pt-PT.microsoft

string

포르투갈어(포르투갈)용 Microsoft 분석기.

ro.lucene

string

루마니아어용 Lucene 분석기.

ro.microsoft

string

루마니아어용 Microsoft 분석기.

ru.lucene

string

러시아어용 Lucene 분석기.

ru.microsoft

string

러시아어용 Microsoft 분석기.

simple

string

비문자에서 텍스트를 나눈 후 소문자로 변환합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html를 참조하세요.

sk.microsoft

string

Slovak용 Microsoft 분석기.

sl.microsoft

string

슬로베니아어용 Microsoft 분석기.

sr-cyrillic.microsoft

string

세르비아어용 Microsoft 분석기(키릴 자모).

sr-latin.microsoft

string

세르비아어용 Microsoft 분석기(라틴어).

standard.lucene

string

표준 Lucene 분석기.

standardasciifolding.lucene

string

표준 ASCII 접기 Lucene 분석기. https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers을 참조하십시오.

stop

string

텍스트를 문자가 아닌 문자로 나눕니다. 소문자 및 중지 단어 토큰 필터를 적용합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html를 참조하세요.

sv.lucene

string

스웨덴어용 Lucene 분석기.

sv.microsoft

string

스웨덴어용 Microsoft 분석기.

ta.microsoft

string

타밀어용 Microsoft 분석기.

te.microsoft

string

Telugu용 Microsoft 분석기.

th.lucene

string

태국어용 Lucene 분석기.

th.microsoft

string

태국어용 Microsoft 분석기.

tr.lucene

string

터키어용 Lucene 분석기.

tr.microsoft

string

터키어용 Microsoft 분석기.

uk.microsoft

string

우크라이나어용 Microsoft 분석기.

ur.microsoft

string

Urdu용 Microsoft 분석기.

vi.microsoft

string

베트남어용 Microsoft 분석기.

whitespace

string

공백 토크나이저를 사용하는 분석기입니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html을 참조하십시오.

zh-Hans.lucene

string

중국어용 Lucene 분석기(간체).

zh-Hans.microsoft

string

중국어용 Microsoft 분석기(간체).

zh-Hant.lucene

string

중국어(번체)용 Lucene 분석기입니다.

zh-Hant.microsoft

string

중국어용 Microsoft 분석기(번체).

LexicalTokenizerName

검색 엔진에서 지원하는 모든 토큰라이저의 이름을 정의합니다.

Name 형식 Description
classic

string

대부분의 유럽 언어 문서를 처리하는 데 적합한 문법 기반 토큰라이저입니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html을 참조하십시오.

edgeNGram

string

에지의 입력을 지정된 크기의 n그램으로 토큰화합니다. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html을 참조하십시오.

keyword_v2

string

전체 입력을 단일 토큰으로 내보냅니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html을 참조하십시오.

letter

string

비문자에서 텍스트를 나눕니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html를 참조하세요.

lowercase

string

비문자에서 텍스트를 나눈 후 소문자로 변환합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html를 참조하세요.

microsoft_language_stemming_tokenizer

string

언어별 규칙을 사용하여 텍스트를 구분하고, 단어를 기본 형식으로 줄입니다.

microsoft_language_tokenizer

string

언어별 규칙을 사용하여 텍스트를 구분합니다.

nGram

string

입력을 지정된 크기의 n-gram으로 토큰화합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html를 참조하세요.

path_hierarchy_v2

string

경로와 같은 계층 구조의 토크나이저입니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html를 참조하세요.

pattern

string

regex 패턴 일치를 사용하여 고유한 토큰을 생성하는 토큰 변환기입니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html을 참조하십시오.

standard_v2

string

표준 Lucene 분석기; 표준 토큰라이저, 소문자 필터 및 중지 필터로 구성됩니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html를 참조하세요.

uax_url_email

string

URL과 이메일을 하나의 토큰으로 토큰화합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html를 참조하세요.

whitespace

string

공백에서 텍스트를 나눕니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html를 참조하세요.

SearchError

API에 대한 오류 조건에 대해 설명합니다.

Name 형식 Description
code

string

서버 정의 오류 코드 집합 중 하나입니다.

details

SearchError[]

이 보고된 오류로 이어진 특정 오류에 대한 세부 정보 배열입니다.

message

string

사람이 읽을 수 있는 오류 표현입니다.

TokenFilterName

검색 엔진에서 지원하는 모든 토큰 필터의 이름을 정의합니다.

Name 형식 Description
apostrophe

string

아포스트로피 다음의 모든 문자를 제거합니다(아포스트로피 자체도 포함). http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html을 참조하십시오.

arabic_normalization

string

아랍어 노멀라이저를 적용하여 표기법을 정규화하는 토큰 필터입니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html을 참조하십시오.

asciifolding

string

처음 127개의 ASCII 문자("기본 라틴어" 유니코드 블록)에 없는 알파벳, 숫자 및 기호 유니코드 문자를 ASCII 등가물(있는 경우)으로 변환합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html를 참조하세요.

cjk_bigram

string

표준 토큰화기에서 생성된 CJK 용어의 bigrams를 형성합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html을 참조하십시오.

cjk_width

string

CJK 너비 차이를 정규화합니다. 전체폭 ASCII 변형을 해당하는 기본 라틴어로 접고 반자 가타카나 변형을 해당하는 가나로 접습니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html를 참조하세요.

classic

string

약어에서 영어 소유 및 점을 제거합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html을 참조하십시오.

common_grams

string

인덱싱 동안 자주 발생하는 용어에 대한 바이그램을 생성합니다. 단일 단어도 바이그램이 오버레이된 상태로 계속 인덱싱됩니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html를 참조하세요.

edgeNGram_v2

string

입력 토큰의 앞뒤에서 시작하여 지정된 크기의 n그램을 생성합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html을 참조하십시오.

elision

string

생략 발음을 제거합니다. 예를 들어 "l'avion"(평면)은 "avion"(평면)으로 변환됩니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html을 참조하십시오.

german_normalization

string

German2 눈덩이 알고리즘의 추론에 따라 독일어 문자를 정규화합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html를 참조하세요.

hindi_normalization

string

힌디어의 텍스트를 정규화하여 철자 변형의 차이를 제거합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html를 참조하세요.

indic_normalization

string

인도어 텍스트의 유니코드 표현을 정규화합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html를 참조하세요.

keyword_repeat

string

들어오는 각 토큰을 키워드(keyword) 한 번, 키워드(keyword) 아닌 토큰으로 두 번 내보낸다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html를 참조하세요.

kstem

string

영어에 대한 고성능 kstem 필터입니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html을 참조하십시오.

length

string

너무 길거나 너무 짧은 단어를 제거합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html를 참조하세요.

limit

string

인덱싱을 할 때 토큰 수를 제한합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html를 참조하세요.

lowercase

string

토큰 텍스트를 소문자로 정규화합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm를 참조하세요.

nGram_v2

string

지정된 크기의 n-gram을 생성합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html을 참조하십시오.

persian_normalization

string

페르시아어에 정규화를 적용합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html을 참조하십시오.

phonetic

string

음성 일치 항목에 대한 토큰을 만듭니다. https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html을 참조하십시오.

porter_stem

string

Porter 형태소 분석 알고리즘을 사용하여 토큰 스트림을 변환합니다. http://tartarus.org/~martin/PorterStemmer를 참조하세요.

reverse

string

토큰 문자열을 반대로 바꿉니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html를 참조하세요.

scandinavian_folding

string

스칸디나비아어 문자 åÅäæÄÆ->a, öÖøØ->o로 접습니다. 또한 이중 모음 aa, ae, ao, oe 및 oo의 사용과 구분하고 첫 번째 모음만 남겨둡니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html을 참조하십시오.

scandinavian_normalization

string

교환 가능한 스칸디나비아어 문자의 사용을 정규화합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html를 참조하세요.

shingle

string

토큰의 조합을 단일 토큰으로 만듭니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html을 참조하십시오.

snowball

string

Snowball에서 생성된 형태소 분석기를 사용하여 단어를 막는 필터입니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html을 참조하십시오.

sorani_normalization

string

소라니어 텍스트의 유니코드 표현을 정규화합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html을 참조하십시오.

stemmer

string

언어별 형태소 분석 필터입니다. https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters을 참조하십시오.

stopwords

string

토큰 스트림에서 중지 단어를 제거합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html을 참조하십시오.

trim

string

토큰에서 선행 및 후행 공백을 제거합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html을 참조하십시오.

truncate

string

용어를 특정 길이로 자립니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html을 참조하십시오.

unique

string

이전 토큰과 동일한 텍스트를 포함하는 토큰을 필터링합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html를 참조하세요.

uppercase

string

토큰 텍스트를 대문자로 정규화합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html을 참조하십시오.

word_delimiter

string

단어를 부분 단어로 분할하고 부분 단어 그룹에 대해 선택적 변환을 수행합니다.