PatternTokenizer interface
Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert.
Eigenschaften
flags | Flags für reguläre Ausdrücke. Mögliche Werte: "CANON_EQ", "CASE_INSENSITIVE", "COMMENTS", "DOTALL", "LITERAL", "MULTILINE", "UNICODE_CASE", "UNIX_LINES" |
group | Die nullbasierte Ordnungszahl der übereinstimmenden Gruppe im Regulären Ausdrucksmuster, die in Token extrahiert werden soll. Verwenden Sie -1, wenn Sie das gesamte Muster verwenden möchten, um die Eingabe unabhängig von übereinstimmenden Gruppen in Token aufzuteilen. Der Standardwert ist -1. Standardwert: -1. |
name | Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
odatatype | Polymorpher Diskriminator |
pattern | Ein Muster für reguläre Ausdrücke, um Tokentrennzeichen zu entsprechen. Standard ist ein Ausdruck, der einem oder mehreren Leerzeichen entspricht. Standardwert. |
Details zur Eigenschaft
flags
Flags für reguläre Ausdrücke. Mögliche Werte: "CANON_EQ", "CASE_INSENSITIVE", "COMMENTS", "DOTALL", "LITERAL", "MULTILINE", "UNICODE_CASE", "UNIX_LINES"
flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
Eigenschaftswert
("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
group
Die nullbasierte Ordnungszahl der übereinstimmenden Gruppe im Regulären Ausdrucksmuster, die in Token extrahiert werden soll. Verwenden Sie -1, wenn Sie das gesamte Muster verwenden möchten, um die Eingabe unabhängig von übereinstimmenden Gruppen in Token aufzuteilen. Der Standardwert ist -1. Standardwert: -1.
group?: number
Eigenschaftswert
number
name
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein.
name: string
Eigenschaftswert
string
odatatype
Polymorpher Diskriminator
odatatype: "#Microsoft.Azure.Search.PatternTokenizer"
Eigenschaftswert
"#Microsoft.Azure.Search.PatternTokenizer"
pattern
Ein Muster für reguläre Ausdrücke, um Tokentrennzeichen zu entsprechen. Standard ist ein Ausdruck, der einem oder mehreren Leerzeichen entspricht. Standardwert. \W+
.
pattern?: string
Eigenschaftswert
string