IndexingParametersConfiguration Classe
Dictionnaire de propriétés de configuration spécifiques à l’indexeur. Chaque nom est le nom d’une propriété spécifique. Chaque valeur doit être d’un type primitif.
- Héritage
-
azure.search.documents.indexes._generated._serialization.ModelIndexingParametersConfiguration
Constructeur
IndexingParametersConfiguration(*, additional_properties: Dict[str, Any] | None = None, parsing_mode: str | _models.BlobIndexerParsingMode = 'default', excluded_file_name_extensions: str = '', indexed_file_name_extensions: str = '', fail_on_unsupported_content_type: bool = False, fail_on_unprocessable_document: bool = False, index_storage_metadata_only_for_oversized_documents: bool = False, delimited_text_headers: str | None = None, delimited_text_delimiter: str | None = None, first_line_contains_headers: bool = True, document_root: str | None = None, data_to_extract: str | _models.BlobIndexerDataToExtract = 'contentAndMetadata', image_action: str | _models.BlobIndexerImageAction = 'none', allow_skillset_to_read_file_data: bool = False, pdf_text_rotation_algorithm: str | _models.BlobIndexerPDFTextRotationAlgorithm = 'none', execution_environment: str | _models.IndexerExecutionEnvironment = 'standard', query_timeout: str = '00:05:00', **kwargs: Any)
Paramètres de mots-clés uniquement
Nom | Description |
---|---|
additional_properties
|
Les propriétés sans correspondance du message sont désérialisées dans cette collection. |
parsing_mode
|
str ou
<xref:search_service_client.models.BlobIndexerParsingMode>
Représente le mode d’analyse pour l’indexation à partir d’une source de données d’objets blob Azure. Les valeurs connues sont : « default », « text », « delimitedText », « json », « jsonArray » et « jsonLines ». valeur par défaut: default
|
excluded_file_name_extensions
|
Liste délimitée par des virgules des extensions de nom de fichier à ignorer lors du traitement à partir du stockage Blob Azure. Par exemple, vous pouvez exclure « .png, .mp4 » pour ignorer ces fichiers pendant l’indexation. |
indexed_file_name_extensions
|
Liste délimitée par des virgules des extensions de nom de fichier à sélectionner lors du traitement à partir du stockage Blob Azure. Par exemple, vous pouvez axer l’indexation sur les fichiers d’applications « .docx, .pptx, .msg » pour inclure spécifiquement ces types de fichier. |
fail_on_unsupported_content_type
|
Pour les objets blob Azure, définissez sur false si vous souhaitez continuer l’indexation lorsqu’un type de contenu non pris en charge est rencontré et que vous ne connaissez pas tous les types de contenu (extensions de fichier) à l’avance. |
fail_on_unprocessable_document
|
Pour les objets blob Azure, définissez sur false si vous souhaitez continuer l’indexation en cas d’échec de l’indexation d’un document. |
index_storage_metadata_only_for_oversized_documents
|
Pour les objets blob Azure, définissez cette propriété sur true pour toujours indexer les métadonnées de stockage pour le contenu d’objet blob trop volumineux à traiter. Par défaut, les objets blob surdimensionnés sont traités comme des erreurs. Pour connaître les limites de taille d’objet blob, consultez https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
delimited_text_headers
|
Pour les objets blob CSV, spécifie une liste délimitée par des virgules d’en-têtes de colonne, utile pour le mappage des champs sources aux champs de destination dans un index. |
delimited_text_delimiter
|
Pour les objets blob CSV, spécifie le délimiteur à caractère unique de fin de ligne pour les fichiers CSV où chaque ligne démarre un nouveau document (par exemple, « | »). |
first_line_contains_headers
|
Pour les objets blob CSV, indique que la première ligne (non vide) de chaque objet blob contient des en-têtes. valeur par défaut: True
|
document_root
|
Pour les tableaux JSON, dans un document structuré ou semi-structuré, vous pouvez spécifier un chemin d’accès au tableau à l’aide de cette propriété. |
data_to_extract
|
str ou
<xref:search_service_client.models.BlobIndexerDataToExtract>
Spécifie les données à extraire du stockage Blob Azure et indique à l’indexeur les données à extraire du contenu de l’image lorsque « imageAction » est défini sur une valeur autre que « none ». Cela s’applique au contenu d’image incorporé dans un .PDF ou une autre application, ou aux fichiers image tels que .jpg et .png, dans les objets blob Azure. Les valeurs connues sont « storageMetadata », « allMetadata » et « contentAndMetadata ». valeur par défaut: contentAndMetadata
|
image_action
|
str ou
<xref:search_service_client.models.BlobIndexerImageAction>
Détermine comment traiter les images incorporées et les fichiers image dans le stockage Blob Azure. La définition de la configuration « imageAction » sur une valeur autre que « none » nécessite qu’un ensemble de compétences soit également attaché à cet indexeur. Les valeurs connues sont « none », « generateNormalizedImages » et « generateNormalizedImagePerPage ». valeur par défaut: none
|
allow_skillset_to_read_file_data
|
Si la valeur est true, crée un chemin d’accès //document//file_data qui est un objet représentant les données de fichier d’origine téléchargées à partir de votre source de données blob. Cela vous permet de transmettre les données de fichier d’origine à une compétence personnalisée pour traitement dans le pipeline d’enrichissement ou à la compétence Extraction de documents. |
pdf_text_rotation_algorithm
|
str ou
<xref:search_service_client.models.BlobIndexerPDFTextRotationAlgorithm>
Détermine l’algorithme pour l’extraction de texte à partir de fichiers PDF dans le stockage Blob Azure. Les valeurs connues sont « none » et « detectAngles ». valeur par défaut: none
|
execution_environment
|
str ou
<xref:search_service_client.models.IndexerExecutionEnvironment>
Spécifie l’environnement dans lequel l’indexeur doit s’exécuter. Les valeurs connues sont : « standard » et « private ». valeur par défaut: standard
|
query_timeout
|
Augmente le délai d’expiration au-delà de la valeur par défaut de 5 minutes pour Azure SQL sources de données de base de données, spécifiées au format « hh :mm :ss ». valeur par défaut: 00:05:00
|
Variables
Nom | Description |
---|---|
additional_properties
|
Les propriétés sans correspondance du message sont désérialisées dans cette collection. |
parsing_mode
|
str ou
<xref:search_service_client.models.BlobIndexerParsingMode>
Représente le mode d’analyse pour l’indexation à partir d’une source de données d’objets blob Azure. Les valeurs connues sont : « default », « text », « delimitedText », « json », « jsonArray » et « jsonLines ». |
excluded_file_name_extensions
|
Liste délimitée par des virgules des extensions de nom de fichier à ignorer lors du traitement à partir du stockage Blob Azure. Par exemple, vous pouvez exclure « .png, .mp4 » pour ignorer ces fichiers pendant l’indexation. |
indexed_file_name_extensions
|
Liste délimitée par des virgules des extensions de nom de fichier à sélectionner lors du traitement à partir du stockage Blob Azure. Par exemple, vous pouvez axer l’indexation sur les fichiers d’applications « .docx, .pptx, .msg » pour inclure spécifiquement ces types de fichier. |
fail_on_unsupported_content_type
|
Pour les objets blob Azure, définissez sur false si vous souhaitez continuer l’indexation lorsqu’un type de contenu non pris en charge est rencontré et que vous ne connaissez pas tous les types de contenu (extensions de fichier) à l’avance. |
fail_on_unprocessable_document
|
Pour les objets blob Azure, définissez sur false si vous souhaitez continuer l’indexation en cas d’échec de l’indexation d’un document. |
index_storage_metadata_only_for_oversized_documents
|
Pour les objets blob Azure, définissez cette propriété sur true pour toujours indexer les métadonnées de stockage pour le contenu d’objet blob trop volumineux à traiter. Par défaut, les objets blob surdimensionnés sont traités comme des erreurs. Pour connaître les limites de taille d’objet blob, consultez https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
delimited_text_headers
|
Pour les objets blob CSV, spécifie une liste délimitée par des virgules d’en-têtes de colonne, utile pour le mappage des champs sources aux champs de destination dans un index. |
delimited_text_delimiter
|
Pour les objets blob CSV, spécifie le délimiteur à caractère unique de fin de ligne pour les fichiers CSV où chaque ligne démarre un nouveau document (par exemple, « | »). |
first_line_contains_headers
|
Pour les objets blob CSV, indique que la première ligne (non vide) de chaque objet blob contient des en-têtes. |
document_root
|
Pour les tableaux JSON, dans un document structuré ou semi-structuré, vous pouvez spécifier un chemin d’accès au tableau à l’aide de cette propriété. |
data_to_extract
|
str ou
<xref:search_service_client.models.BlobIndexerDataToExtract>
Spécifie les données à extraire du stockage Blob Azure et indique à l’indexeur les données à extraire du contenu de l’image lorsque « imageAction » est défini sur une valeur autre que « none ». Cela s’applique au contenu d’image incorporé dans un .PDF ou une autre application, ou aux fichiers image tels que .jpg et .png, dans les objets blob Azure. Les valeurs connues sont « storageMetadata », « allMetadata » et « contentAndMetadata ». |
image_action
|
str ou
<xref:search_service_client.models.BlobIndexerImageAction>
Détermine comment traiter les images incorporées et les fichiers image dans le stockage Blob Azure. La définition de la configuration « imageAction » sur une valeur autre que « none » nécessite qu’un ensemble de compétences soit également attaché à cet indexeur. Les valeurs connues sont « none », « generateNormalizedImages » et « generateNormalizedImagePerPage ». |
allow_skillset_to_read_file_data
|
Si la valeur est true, crée un chemin d’accès //document//file_data qui est un objet représentant les données de fichier d’origine téléchargées à partir de votre source de données blob. Cela vous permet de transmettre les données de fichier d’origine à une compétence personnalisée pour traitement dans le pipeline d’enrichissement ou à la compétence Extraction de documents. |
pdf_text_rotation_algorithm
|
str ou
<xref:search_service_client.models.BlobIndexerPDFTextRotationAlgorithm>
Détermine l’algorithme pour l’extraction de texte à partir de fichiers PDF dans le stockage Blob Azure. Les valeurs connues sont « none » et « detectAngles ». |
execution_environment
|
str ou
<xref:search_service_client.models.IndexerExecutionEnvironment>
Spécifie l’environnement dans lequel l’indexeur doit s’exécuter. Les valeurs connues sont : « standard » et « private ». |
query_timeout
|
Augmente le délai d’expiration au-delà de la valeur par défaut de 5 minutes pour Azure SQL sources de données de base de données, spécifiées au format « hh :mm :ss ». |
Méthodes
as_dict |
Retourne un dictée qui peut être sérialisé à l’aide de json.dump. L’utilisation avancée peut éventuellement utiliser un rappel comme paramètre : La clé est le nom d’attribut utilisé dans Python. Attr_desc est un dictée de métadonnées. Contient actuellement « type » avec le type msrest et « key » avec la clé encodée RestAPI. Value est la valeur actuelle dans cet objet. La chaîne retournée sera utilisée pour sérialiser la clé. Si le type de retour est une liste, cela est considéré comme un dicté de résultat hiérarchique. Consultez les trois exemples de ce fichier :
Si vous souhaitez une sérialisation XML, vous pouvez passer les kwargs is_xml=True. |
deserialize |
Analysez un str à l’aide de la syntaxe RestAPI et retournez un modèle. |
enable_additional_properties_sending | |
from_dict |
L’analyse d’un dicté à l’aide de l’extracteur de clé donné retourne un modèle. Par défaut, considérez les extracteurs de clés (rest_key_case_insensitive_extractor, attribute_key_case_insensitive_extractor et last_rest_key_case_insensitive_extractor) |
is_xml_model | |
serialize |
Retourne le json qui serait envoyé au serveur à partir de ce modèle. Il s’agit d’un alias pour as_dict(full_restapi_key_transformer, keep_readonly=False). Si vous souhaitez une sérialisation XML, vous pouvez passer les kwargs is_xml=True. |
as_dict
Retourne un dictée qui peut être sérialisé à l’aide de json.dump.
L’utilisation avancée peut éventuellement utiliser un rappel comme paramètre :
La clé est le nom d’attribut utilisé dans Python. Attr_desc est un dictée de métadonnées. Contient actuellement « type » avec le type msrest et « key » avec la clé encodée RestAPI. Value est la valeur actuelle dans cet objet.
La chaîne retournée sera utilisée pour sérialiser la clé. Si le type de retour est une liste, cela est considéré comme un dicté de résultat hiérarchique.
Consultez les trois exemples de ce fichier :
attribute_transformer
full_restapi_key_transformer
last_restapi_key_transformer
Si vous souhaitez une sérialisation XML, vous pouvez passer les kwargs is_xml=True.
as_dict(keep_readonly: bool = True, key_transformer: ~typing.Callable[[str, ~typing.Dict[str, ~typing.Any], ~typing.Any], ~typing.Any] = <function attribute_transformer>, **kwargs: ~typing.Any) -> MutableMapping[str, Any]
Paramètres
Nom | Description |
---|---|
key_transformer
|
<xref:function>
Fonction de transformateur de clé. |
keep_readonly
|
valeur par défaut: True
|
Retours
Type | Description |
---|---|
Objet compatible JSON de dict |
deserialize
Analysez un str à l’aide de la syntaxe RestAPI et retournez un modèle.
deserialize(data: Any, content_type: str | None = None) -> ModelType
Paramètres
Nom | Description |
---|---|
data
Obligatoire
|
Str utilisant la structure RestAPI. JSON par défaut. |
content_type
|
JSON par défaut, définissez application/xml si XML. valeur par défaut: None
|
Retours
Type | Description |
---|---|
Une instance de ce modèle |
Exceptions
Type | Description |
---|---|
DeserializationError if something went wrong
|
enable_additional_properties_sending
enable_additional_properties_sending() -> None
from_dict
L’analyse d’un dicté à l’aide de l’extracteur de clé donné retourne un modèle.
Par défaut, considérez les extracteurs de clés (rest_key_case_insensitive_extractor, attribute_key_case_insensitive_extractor et last_rest_key_case_insensitive_extractor)
from_dict(data: Any, key_extractors: Callable[[str, Dict[str, Any], Any], Any] | None = None, content_type: str | None = None) -> ModelType
Paramètres
Nom | Description |
---|---|
data
Obligatoire
|
Dict utilisant la structure RestAPI |
content_type
|
JSON par défaut, définissez application/xml si XML. valeur par défaut: None
|
key_extractors
|
valeur par défaut: None
|
Retours
Type | Description |
---|---|
Une instance de ce modèle |
Exceptions
Type | Description |
---|---|
DeserializationError if something went wrong
|
is_xml_model
is_xml_model() -> bool
serialize
Retourne le json qui serait envoyé au serveur à partir de ce modèle.
Il s’agit d’un alias pour as_dict(full_restapi_key_transformer, keep_readonly=False).
Si vous souhaitez une sérialisation XML, vous pouvez passer les kwargs is_xml=True.
serialize(keep_readonly: bool = False, **kwargs: Any) -> MutableMapping[str, Any]
Paramètres
Nom | Description |
---|---|
keep_readonly
|
Si vous souhaitez sérialiser les attributs readonly valeur par défaut: False
|
Retours
Type | Description |
---|---|
Objet compatible JSON de dict |
Azure SDK for Python