MicrosoftLanguageTokenizer interface
Teilt Text mit sprachspezifische Regeln auf.
- Extends
Eigenschaften
is |
Ein -Wert, der angibt, wie der Tokenizer verwendet wird. Legen Sie bei Verwendung als Suchtokenizer auf TRUE fest, und legen Sie auf false fest, wenn sie als Indizierungstokenizer verwendet wird. Der Standardwert ist "false". |
language | Die zu verwendende Sprache. Der Standardwert ist Englisch. |
max |
Die maximale Tokenlänge. Token, die die maximale Länge überschreiten, werden geteilt. Ein Token darf maximal 300 Zeichen lang sein. Token, die länger als 300 Zeichen sind, werden zunächst in Token mit der Länge 300 aufgeteilt, und dann wird jedes dieser Token basierend auf der maximalen Tokenlänge aufgeteilt. Der Standardwert ist 255. |
odatatype | Polymorpher Diskriminator, der die verschiedenen Typen angibt, die dieses Objekt sein kann |
Geerbte Eigenschaften
name | Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
Details zur Eigenschaft
isSearchTokenizer
Ein -Wert, der angibt, wie der Tokenizer verwendet wird. Legen Sie bei Verwendung als Suchtokenizer auf TRUE fest, und legen Sie auf false fest, wenn sie als Indizierungstokenizer verwendet wird. Der Standardwert ist "false".
isSearchTokenizer?: boolean
Eigenschaftswert
boolean
language
Die zu verwendende Sprache. Der Standardwert ist Englisch.
language?: MicrosoftTokenizerLanguage
Eigenschaftswert
maxTokenLength
Die maximale Tokenlänge. Token, die die maximale Länge überschreiten, werden geteilt. Ein Token darf maximal 300 Zeichen lang sein. Token, die länger als 300 Zeichen sind, werden zunächst in Token mit der Länge 300 aufgeteilt, und dann wird jedes dieser Token basierend auf der maximalen Tokenlänge aufgeteilt. Der Standardwert ist 255.
maxTokenLength?: number
Eigenschaftswert
number
odatatype
Polymorpher Diskriminator, der die verschiedenen Typen angibt, die dieses Objekt sein kann
odatatype: "#Microsoft.Azure.Search.MicrosoftLanguageTokenizer"
Eigenschaftswert
"#Microsoft.Azure.Search.MicrosoftLanguageTokenizer"
Geerbte Eigenschaftsdetails
name
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein.
name: string
Eigenschaftswert
string
Geerbt vonBaseLexicalTokenizer.name