Partager via


IndexingParametersConfiguration Classe

Dictionnaire de propriétés de configuration spécifiques à l’indexeur. Chaque nom est le nom d’une propriété spécifique. Chaque valeur doit être d’un type primitif.

Héritage
azure.search.documents.indexes._generated._serialization.Model
IndexingParametersConfiguration

Constructeur

IndexingParametersConfiguration(*, additional_properties: Dict[str, Any] | None = None, parsing_mode: str | _models.BlobIndexerParsingMode = 'default', excluded_file_name_extensions: str = '', indexed_file_name_extensions: str = '', fail_on_unsupported_content_type: bool = False, fail_on_unprocessable_document: bool = False, index_storage_metadata_only_for_oversized_documents: bool = False, delimited_text_headers: str | None = None, delimited_text_delimiter: str | None = None, first_line_contains_headers: bool = True, document_root: str | None = None, data_to_extract: str | _models.BlobIndexerDataToExtract = 'contentAndMetadata', image_action: str | _models.BlobIndexerImageAction = 'none', allow_skillset_to_read_file_data: bool = False, pdf_text_rotation_algorithm: str | _models.BlobIndexerPDFTextRotationAlgorithm = 'none', execution_environment: str | _models.IndexerExecutionEnvironment = 'standard', query_timeout: str = '00:05:00', **kwargs: Any)

Paramètres de mots-clés uniquement

Nom Description
additional_properties

Les propriétés sans correspondance du message sont désérialisées dans cette collection.

parsing_mode
str ou <xref:search_service_client.models.BlobIndexerParsingMode>

Représente le mode d’analyse pour l’indexation à partir d’une source de données d’objets blob Azure. Les valeurs connues sont : « default », « text », « delimitedText », « json », « jsonArray » et « jsonLines ».

valeur par défaut: default
excluded_file_name_extensions
str

Liste délimitée par des virgules des extensions de nom de fichier à ignorer lors du traitement à partir du stockage Blob Azure. Par exemple, vous pouvez exclure « .png, .mp4 » pour ignorer ces fichiers pendant l’indexation.

indexed_file_name_extensions
str

Liste délimitée par des virgules des extensions de nom de fichier à sélectionner lors du traitement à partir du stockage Blob Azure. Par exemple, vous pouvez axer l’indexation sur les fichiers d’applications « .docx, .pptx, .msg » pour inclure spécifiquement ces types de fichier.

fail_on_unsupported_content_type

Pour les objets blob Azure, définissez sur false si vous souhaitez continuer l’indexation lorsqu’un type de contenu non pris en charge est rencontré et que vous ne connaissez pas tous les types de contenu (extensions de fichier) à l’avance.

fail_on_unprocessable_document

Pour les objets blob Azure, définissez sur false si vous souhaitez continuer l’indexation en cas d’échec de l’indexation d’un document.

index_storage_metadata_only_for_oversized_documents

Pour les objets blob Azure, définissez cette propriété sur true pour toujours indexer les métadonnées de stockage pour le contenu d’objet blob trop volumineux à traiter. Par défaut, les objets blob surdimensionnés sont traités comme des erreurs. Pour connaître les limites de taille d’objet blob, consultez https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

delimited_text_headers
str

Pour les objets blob CSV, spécifie une liste délimitée par des virgules d’en-têtes de colonne, utile pour le mappage des champs sources aux champs de destination dans un index.

delimited_text_delimiter
str

Pour les objets blob CSV, spécifie le délimiteur à caractère unique de fin de ligne pour les fichiers CSV où chaque ligne démarre un nouveau document (par exemple, « | »).

first_line_contains_headers

Pour les objets blob CSV, indique que la première ligne (non vide) de chaque objet blob contient des en-têtes.

valeur par défaut: True
document_root
str

Pour les tableaux JSON, dans un document structuré ou semi-structuré, vous pouvez spécifier un chemin d’accès au tableau à l’aide de cette propriété.

data_to_extract
str ou <xref:search_service_client.models.BlobIndexerDataToExtract>

Spécifie les données à extraire du stockage Blob Azure et indique à l’indexeur les données à extraire du contenu de l’image lorsque « imageAction » est défini sur une valeur autre que « none ». Cela s’applique au contenu d’image incorporé dans un .PDF ou une autre application, ou aux fichiers image tels que .jpg et .png, dans les objets blob Azure. Les valeurs connues sont « storageMetadata », « allMetadata » et « contentAndMetadata ».

valeur par défaut: contentAndMetadata
image_action
str ou <xref:search_service_client.models.BlobIndexerImageAction>

Détermine comment traiter les images incorporées et les fichiers image dans le stockage Blob Azure. La définition de la configuration « imageAction » sur une valeur autre que « none » nécessite qu’un ensemble de compétences soit également attaché à cet indexeur. Les valeurs connues sont « none », « generateNormalizedImages » et « generateNormalizedImagePerPage ».

valeur par défaut: none
allow_skillset_to_read_file_data

Si la valeur est true, crée un chemin d’accès //document//file_data qui est un objet représentant les données de fichier d’origine téléchargées à partir de votre source de données blob. Cela vous permet de transmettre les données de fichier d’origine à une compétence personnalisée pour traitement dans le pipeline d’enrichissement ou à la compétence Extraction de documents.

pdf_text_rotation_algorithm
str ou <xref:search_service_client.models.BlobIndexerPDFTextRotationAlgorithm>

Détermine l’algorithme pour l’extraction de texte à partir de fichiers PDF dans le stockage Blob Azure. Les valeurs connues sont « none » et « detectAngles ».

valeur par défaut: none
execution_environment
str ou <xref:search_service_client.models.IndexerExecutionEnvironment>

Spécifie l’environnement dans lequel l’indexeur doit s’exécuter. Les valeurs connues sont : « standard » et « private ».

valeur par défaut: standard
query_timeout
str

Augmente le délai d’expiration au-delà de la valeur par défaut de 5 minutes pour Azure SQL sources de données de base de données, spécifiées au format « hh :mm :ss ».

valeur par défaut: 00:05:00

Variables

Nom Description
additional_properties

Les propriétés sans correspondance du message sont désérialisées dans cette collection.

parsing_mode
str ou <xref:search_service_client.models.BlobIndexerParsingMode>

Représente le mode d’analyse pour l’indexation à partir d’une source de données d’objets blob Azure. Les valeurs connues sont : « default », « text », « delimitedText », « json », « jsonArray » et « jsonLines ».

excluded_file_name_extensions
str

Liste délimitée par des virgules des extensions de nom de fichier à ignorer lors du traitement à partir du stockage Blob Azure. Par exemple, vous pouvez exclure « .png, .mp4 » pour ignorer ces fichiers pendant l’indexation.

indexed_file_name_extensions
str

Liste délimitée par des virgules des extensions de nom de fichier à sélectionner lors du traitement à partir du stockage Blob Azure. Par exemple, vous pouvez axer l’indexation sur les fichiers d’applications « .docx, .pptx, .msg » pour inclure spécifiquement ces types de fichier.

fail_on_unsupported_content_type

Pour les objets blob Azure, définissez sur false si vous souhaitez continuer l’indexation lorsqu’un type de contenu non pris en charge est rencontré et que vous ne connaissez pas tous les types de contenu (extensions de fichier) à l’avance.

fail_on_unprocessable_document

Pour les objets blob Azure, définissez sur false si vous souhaitez continuer l’indexation en cas d’échec de l’indexation d’un document.

index_storage_metadata_only_for_oversized_documents

Pour les objets blob Azure, définissez cette propriété sur true pour toujours indexer les métadonnées de stockage pour le contenu d’objet blob trop volumineux à traiter. Par défaut, les objets blob surdimensionnés sont traités comme des erreurs. Pour connaître les limites de taille d’objet blob, consultez https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

delimited_text_headers
str

Pour les objets blob CSV, spécifie une liste délimitée par des virgules d’en-têtes de colonne, utile pour le mappage des champs sources aux champs de destination dans un index.

delimited_text_delimiter
str

Pour les objets blob CSV, spécifie le délimiteur à caractère unique de fin de ligne pour les fichiers CSV où chaque ligne démarre un nouveau document (par exemple, « | »).

first_line_contains_headers

Pour les objets blob CSV, indique que la première ligne (non vide) de chaque objet blob contient des en-têtes.

document_root
str

Pour les tableaux JSON, dans un document structuré ou semi-structuré, vous pouvez spécifier un chemin d’accès au tableau à l’aide de cette propriété.

data_to_extract
str ou <xref:search_service_client.models.BlobIndexerDataToExtract>

Spécifie les données à extraire du stockage Blob Azure et indique à l’indexeur les données à extraire du contenu de l’image lorsque « imageAction » est défini sur une valeur autre que « none ». Cela s’applique au contenu d’image incorporé dans un .PDF ou une autre application, ou aux fichiers image tels que .jpg et .png, dans les objets blob Azure. Les valeurs connues sont « storageMetadata », « allMetadata » et « contentAndMetadata ».

image_action
str ou <xref:search_service_client.models.BlobIndexerImageAction>

Détermine comment traiter les images incorporées et les fichiers image dans le stockage Blob Azure. La définition de la configuration « imageAction » sur une valeur autre que « none » nécessite qu’un ensemble de compétences soit également attaché à cet indexeur. Les valeurs connues sont « none », « generateNormalizedImages » et « generateNormalizedImagePerPage ».

allow_skillset_to_read_file_data

Si la valeur est true, crée un chemin d’accès //document//file_data qui est un objet représentant les données de fichier d’origine téléchargées à partir de votre source de données blob. Cela vous permet de transmettre les données de fichier d’origine à une compétence personnalisée pour traitement dans le pipeline d’enrichissement ou à la compétence Extraction de documents.

pdf_text_rotation_algorithm
str ou <xref:search_service_client.models.BlobIndexerPDFTextRotationAlgorithm>

Détermine l’algorithme pour l’extraction de texte à partir de fichiers PDF dans le stockage Blob Azure. Les valeurs connues sont « none » et « detectAngles ».

execution_environment
str ou <xref:search_service_client.models.IndexerExecutionEnvironment>

Spécifie l’environnement dans lequel l’indexeur doit s’exécuter. Les valeurs connues sont : « standard » et « private ».

query_timeout
str

Augmente le délai d’expiration au-delà de la valeur par défaut de 5 minutes pour Azure SQL sources de données de base de données, spécifiées au format « hh :mm :ss ».

Méthodes

as_dict

Retourne un dictée qui peut être sérialisé à l’aide de json.dump.

L’utilisation avancée peut éventuellement utiliser un rappel comme paramètre :

La clé est le nom d’attribut utilisé dans Python. Attr_desc est un dictée de métadonnées. Contient actuellement « type » avec le type msrest et « key » avec la clé encodée RestAPI. Value est la valeur actuelle dans cet objet.

La chaîne retournée sera utilisée pour sérialiser la clé. Si le type de retour est une liste, cela est considéré comme un dicté de résultat hiérarchique.

Consultez les trois exemples de ce fichier :

  • attribute_transformer

  • full_restapi_key_transformer

  • last_restapi_key_transformer

Si vous souhaitez une sérialisation XML, vous pouvez passer les kwargs is_xml=True.

deserialize

Analysez un str à l’aide de la syntaxe RestAPI et retournez un modèle.

enable_additional_properties_sending
from_dict

L’analyse d’un dicté à l’aide de l’extracteur de clé donné retourne un modèle.

Par défaut, considérez les extracteurs de clés (rest_key_case_insensitive_extractor, attribute_key_case_insensitive_extractor et last_rest_key_case_insensitive_extractor)

is_xml_model
serialize

Retourne le json qui serait envoyé au serveur à partir de ce modèle.

Il s’agit d’un alias pour as_dict(full_restapi_key_transformer, keep_readonly=False).

Si vous souhaitez une sérialisation XML, vous pouvez passer les kwargs is_xml=True.

as_dict

Retourne un dictée qui peut être sérialisé à l’aide de json.dump.

L’utilisation avancée peut éventuellement utiliser un rappel comme paramètre :

La clé est le nom d’attribut utilisé dans Python. Attr_desc est un dictée de métadonnées. Contient actuellement « type » avec le type msrest et « key » avec la clé encodée RestAPI. Value est la valeur actuelle dans cet objet.

La chaîne retournée sera utilisée pour sérialiser la clé. Si le type de retour est une liste, cela est considéré comme un dicté de résultat hiérarchique.

Consultez les trois exemples de ce fichier :

  • attribute_transformer

  • full_restapi_key_transformer

  • last_restapi_key_transformer

Si vous souhaitez une sérialisation XML, vous pouvez passer les kwargs is_xml=True.

as_dict(keep_readonly: bool = True, key_transformer: ~typing.Callable[[str, ~typing.Dict[str, ~typing.Any], ~typing.Any], ~typing.Any] = <function attribute_transformer>, **kwargs: ~typing.Any) -> MutableMapping[str, Any]

Paramètres

Nom Description
key_transformer
<xref:function>

Fonction de transformateur de clé.

keep_readonly
valeur par défaut: True

Retours

Type Description

Objet compatible JSON de dict

deserialize

Analysez un str à l’aide de la syntaxe RestAPI et retournez un modèle.

deserialize(data: Any, content_type: str | None = None) -> ModelType

Paramètres

Nom Description
data
Obligatoire
str

Str utilisant la structure RestAPI. JSON par défaut.

content_type
str

JSON par défaut, définissez application/xml si XML.

valeur par défaut: None

Retours

Type Description

Une instance de ce modèle

Exceptions

Type Description
DeserializationError if something went wrong

enable_additional_properties_sending

enable_additional_properties_sending() -> None

from_dict

L’analyse d’un dicté à l’aide de l’extracteur de clé donné retourne un modèle.

Par défaut, considérez les extracteurs de clés (rest_key_case_insensitive_extractor, attribute_key_case_insensitive_extractor et last_rest_key_case_insensitive_extractor)

from_dict(data: Any, key_extractors: Callable[[str, Dict[str, Any], Any], Any] | None = None, content_type: str | None = None) -> ModelType

Paramètres

Nom Description
data
Obligatoire

Dict utilisant la structure RestAPI

content_type
str

JSON par défaut, définissez application/xml si XML.

valeur par défaut: None
key_extractors
valeur par défaut: None

Retours

Type Description

Une instance de ce modèle

Exceptions

Type Description
DeserializationError if something went wrong

is_xml_model

is_xml_model() -> bool

serialize

Retourne le json qui serait envoyé au serveur à partir de ce modèle.

Il s’agit d’un alias pour as_dict(full_restapi_key_transformer, keep_readonly=False).

Si vous souhaitez une sérialisation XML, vous pouvez passer les kwargs is_xml=True.

serialize(keep_readonly: bool = False, **kwargs: Any) -> MutableMapping[str, Any]

Paramètres

Nom Description
keep_readonly

Si vous souhaitez sérialiser les attributs readonly

valeur par défaut: False

Retours

Type Description

Objet compatible JSON de dict