MicrosoftLanguageTokenizer Classe

Référence

Divise le texte en utilisant des règles spécifiques à la langue.

Tous les paramètres requis doivent être renseignés pour pouvoir être envoyés à Azure.

Héritage: azure.search.documents.indexes._generated.models._models_py3.LexicalTokenizer

MicrosoftLanguageTokenizer

Constructeur

MicrosoftLanguageTokenizer(*, name: str, max_token_length: int = 255, is_search_tokenizer: bool = False, language: str | _models.MicrosoftTokenizerLanguage | None = None, **kwargs: Any)

Paramètres de mots-clés uniquement

Nom	Description
name	str Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. Obligatoire.
max_token_length	int Longueur maximale du jeton. Les jetons dépassant la longueur maximale sont fractionnés. La longueur maximale des jetons qui peut être utilisée est de 300 caractères. Les jetons de plus de 300 caractères sont d’abord divisés en jetons de longueur 300, puis chacun de ces jetons est fractionné en fonction de la longueur maximale définie. La valeur par défaut est 255. valeur par défaut: 255
is_search_tokenizer	bool Valeur indiquant comment le générateur de jetons est utilisé. Affectez la valeur true si elle est utilisée comme générateur de jetons de recherche, false si elle est utilisée comme générateur de jetons d’indexation. La valeur par défaut est false.
language	str ou <xref:search_service_client.models.MicrosoftTokenizerLanguage> Langue à utiliser. La valeur par défaut est l’anglais. Les valeurs connues sont les suivantes : « bangla », « bulgare », « catalan », « chineseSimplified », « chineseTraditional », « croatian », « czech », « danish », « dutch », « english », « français », « german », « greek », « gujarati », « hindi », « icelandic », « indonésien », « italian », « japanese », « kannada », « korean », « malay », « malayalam », « marathi », « norwegianBokmaal », « polish », « portugais », « portugueseBrazilian », « punjabi », « romanian », « russian », « serbCyrillic », « serbLatin », « slovène », « spanish », « swedish », « tamil », « telugu », » thai », « ukrainian », « urdu », et « vietnamien ».

Variables

Nom	Description
odata_type	str Fragment d’URI spécifiant le type de générateur de jetons. Obligatoire.
name	str Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. Obligatoire.
max_token_length	int Longueur maximale du jeton. Les jetons dépassant la longueur maximale sont fractionnés. La longueur maximale des jetons qui peut être utilisée est de 300 caractères. Les jetons de plus de 300 caractères sont d’abord divisés en jetons de longueur 300, puis chacun de ces jetons est fractionné en fonction de la longueur maximale définie. La valeur par défaut est 255.
is_search_tokenizer	bool Valeur indiquant comment le générateur de jetons est utilisé. Affectez la valeur true si elle est utilisée comme générateur de jetons de recherche, false si elle est utilisée comme générateur de jetons d’indexation. La valeur par défaut est false.
language	str ou <xref:search_service_client.models.MicrosoftTokenizerLanguage> Langue à utiliser. La valeur par défaut est l’anglais. Les valeurs connues sont les suivantes : « bangla », « bulgare », « catalan », « chineseSimplified », « chineseTraditional », « croatian », « czech », « danish », « dutch », « english », « français », « german », « greek », « gujarati », « hindi », « icelandic », « indonésien », « italian », « japanese », « kannada », « korean », « malay », « malayalam », « marathi », « norwegianBokmaal », « polish », « portugais », « portugueseBrazilian », « punjabi », « romanian », « russian », « serbCyrillic », « serbLatin », « slovène », « spanish », « swedish », « tamil », « telugu », » thai », « ukrainian », « urdu », et « vietnamien ».

Méthodes

as_dict	Retourne un dictée qui peut être sérialisé à l’aide de json.dump. L’utilisation avancée peut éventuellement utiliser un rappel comme paramètre : La clé est le nom d’attribut utilisé dans Python. Attr_desc est un dictée de métadonnées. Contient actuellement « type » avec le type msrest et « key » avec la clé encodée RestAPI. Value est la valeur actuelle dans cet objet. La chaîne retournée sera utilisée pour sérialiser la clé. Si le type de retour est une liste, cela est considéré comme un dicté de résultat hiérarchique. Consultez les trois exemples de ce fichier : attribute_transformer full_restapi_key_transformer last_restapi_key_transformer Si vous souhaitez une sérialisation XML, vous pouvez passer les kwargs is_xml=True.
deserialize	Analysez un str à l’aide de la syntaxe RestAPI et retournez un modèle.
enable_additional_properties_sending
from_dict	L’analyse d’un dicté à l’aide de l’extracteur de clé donné retourne un modèle. Par défaut, considérez les extracteurs de clés (rest_key_case_insensitive_extractor, attribute_key_case_insensitive_extractor et last_rest_key_case_insensitive_extractor)
is_xml_model
serialize	Retourne le json qui serait envoyé au serveur à partir de ce modèle. Il s’agit d’un alias pour as_dict(full_restapi_key_transformer, keep_readonly=False). Si vous souhaitez une sérialisation XML, vous pouvez passer les kwargs is_xml=True.

as_dict

Retourne un dictée qui peut être sérialisé à l’aide de json.dump.

L’utilisation avancée peut éventuellement utiliser un rappel comme paramètre :

La clé est le nom d’attribut utilisé dans Python. Attr_desc est un dictée de métadonnées. Contient actuellement « type » avec le type msrest et « key » avec la clé encodée RestAPI. Value est la valeur actuelle dans cet objet.

La chaîne retournée sera utilisée pour sérialiser la clé. Si le type de retour est une liste, cela est considéré comme un dicté de résultat hiérarchique.

Consultez les trois exemples de ce fichier :

attribute_transformer
full_restapi_key_transformer
last_restapi_key_transformer

Si vous souhaitez une sérialisation XML, vous pouvez passer les kwargs is_xml=True.

as_dict(keep_readonly: bool = True, key_transformer: ~typing.Callable[[str, ~typing.Dict[str, ~typing.Any], ~typing.Any], ~typing.Any] = <function attribute_transformer>, **kwargs: ~typing.Any) -> MutableMapping[str, Any]

Paramètres

Nom	Description
key_transformer	<xref:function> Fonction de transformateur de clé.
keep_readonly	valeur par défaut: True

Retours

Type	Description
dict	Objet compatible JSON de dict

deserialize

Analysez un str à l’aide de la syntaxe RestAPI et retournez un modèle.

deserialize(data: Any, content_type: str | None = None) -> ModelType

Paramètres

Nom	Description
data Obligatoire	str Str utilisant la structure RestAPI. JSON par défaut.
content_type	str JSON par défaut, définissez application/xml si XML. valeur par défaut: None

Retours

Type	Description
	Une instance de ce modèle

Exceptions

Type	Description
DeserializationError if something went wrong

enable_additional_properties_sending

enable_additional_properties_sending() -> None

from_dict

L’analyse d’un dicté à l’aide de l’extracteur de clé donné retourne un modèle.

Par défaut, considérez les extracteurs de clés (rest_key_case_insensitive_extractor, attribute_key_case_insensitive_extractor et last_rest_key_case_insensitive_extractor)

from_dict(data: Any, key_extractors: Callable[[str, Dict[str, Any], Any], Any] | None = None, content_type: str | None = None) -> ModelType

Paramètres

Nom	Description
data Obligatoire	dict Dict utilisant la structure RestAPI
content_type	str JSON par défaut, définissez application/xml si XML. valeur par défaut: None
key_extractors	valeur par défaut: None

Retours

Type	Description
	Une instance de ce modèle

Exceptions

Type	Description
DeserializationError if something went wrong

is_xml_model

is_xml_model() -> bool

serialize

Retourne le json qui serait envoyé au serveur à partir de ce modèle.

Il s’agit d’un alias pour as_dict(full_restapi_key_transformer, keep_readonly=False).

Si vous souhaitez une sérialisation XML, vous pouvez passer les kwargs is_xml=True.

serialize(keep_readonly: bool = False, **kwargs: Any) -> MutableMapping[str, Any]

Paramètres

Nom	Description
keep_readonly	bool Si vous souhaitez sérialiser les attributs readonly valeur par défaut: False

Retours

Type	Description
dict	Objet compatible JSON de dict

Partager via

MicrosoftLanguageTokenizer Classe

Constructeur

Paramètres de mots-clés uniquement

Variables

Méthodes

as_dict

Paramètres

Retours

deserialize

Paramètres

Retours

Exceptions

enable_additional_properties_sending

from_dict

Paramètres

Retours

Exceptions

is_xml_model

serialize

Paramètres

Retours

Ressources supplémentaires