PatternTokenizer interface
regex 패턴 일치를 사용하여 고유 토큰을 생성하는 토큰라이저입니다. 이 토큰화기는 Apache Lucene을 사용하여 구현됩니다.
속성
flags | 정규식 플래그입니다. 가능한 값은 'CANON_EQ', 'CASE_INSENSITIVE', 'COMMENTS', 'DOTALL', 'LITERAL', 'MULTILINE', 'UNICODE_CASE', 'UNIX_LINES'입니다. |
group | 토큰으로 추출할 정규식 패턴에서 일치하는 그룹의 0부터 시작하는 서수입니다. 일치하는 그룹에 관계없이 전체 패턴을 사용하여 입력을 토큰으로 분할하려면 -1을 사용합니다. 기본값은 -1입니다. 기본값: -1. |
name | 토큰라이저의 이름입니다. 문자, 숫자, 공백, 대시 또는 밑줄만 사용해야 하며 영숫자 문자로만 시작하고 끝낼 수 있습니다. 길이는 128자로 제한됩니다. |
odatatype | 다형 판별자 |
pattern | 토큰 구분 기호와 일치하는 정규식 패턴입니다. 기본값은 하나 이상의 공백 문자와 일치하는 식입니다. 기본값은 |
속성 세부 정보
flags
정규식 플래그입니다. 가능한 값은 'CANON_EQ', 'CASE_INSENSITIVE', 'COMMENTS', 'DOTALL', 'LITERAL', 'MULTILINE', 'UNICODE_CASE', 'UNIX_LINES'입니다.
flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
속성 값
("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
group
토큰으로 추출할 정규식 패턴에서 일치하는 그룹의 0부터 시작하는 서수입니다. 일치하는 그룹에 관계없이 전체 패턴을 사용하여 입력을 토큰으로 분할하려면 -1을 사용합니다. 기본값은 -1입니다. 기본값: -1.
group?: number
속성 값
number
name
토큰라이저의 이름입니다. 문자, 숫자, 공백, 대시 또는 밑줄만 사용해야 하며 영숫자 문자로만 시작하고 끝낼 수 있습니다. 길이는 128자로 제한됩니다.
name: string
속성 값
string
odatatype
다형 판별자
odatatype: "#Microsoft.Azure.Search.PatternTokenizer"
속성 값
"#Microsoft.Azure.Search.PatternTokenizer"
pattern
토큰 구분 기호와 일치하는 정규식 패턴입니다. 기본값은 하나 이상의 공백 문자와 일치하는 식입니다. 기본값은 \W+
입니다.
pattern?: string
속성 값
string