IndexingParametersConfiguration interface

Referenz

Paket:: @azure/search-documents

Ein Wörterbuch mit indexerspezifischen Konfigurationseigenschaften. Jeder Name ist der Name einer bestimmten Eigenschaft. Jeder Wert muss einen primitiven Typ aufweisen.

Eigenschaften

allowSkillsetToReadFileData	Wenn true, wird ein Pfad //document//file_data erstellt, bei dem es sich um ein Objekt handelt, das die ursprünglichen Dateidaten darstellt, die aus Ihrer Blobdatenquelle heruntergeladen wurden. Dadurch können Sie die ursprünglichen Dateidaten an einen benutzerdefinierten Skill zur Verarbeitung in der Anreicherungspipeline oder an den Skill Dokumentextraktion übergeben.
dataToExtract	Gibt die Daten an, die aus Azure Blob Storage extrahiert werden sollen, und teilt dem Indexer mit, welche Daten aus Imageinhalten extrahiert werden sollen, wenn "imageAction" auf einen anderen Wert als "none" festgelegt ist. Dies gilt für eingebettete Bildinhalte in einer .PDF oder einer anderen Anwendung oder Bilddateien wie .jpg und .png in Azure-Blobs.
delimitedTextDelimiter	Für CSV-Blobs gibt das einzeilige Endtrennzeichen für CSV-Dateien an, bei denen jede Zeile ein neues Dokument beginnt (z. B. "\|").
delimitedTextHeaders	Gibt für CSV-Blobs eine durch Trennzeichen getrennte Liste von Spaltenheadern an, die zum Zuordnen von Quellfeldern zu Zielfeldern in einem Index nützlich ist.
documentRoot	Für JSON-Arrays können Sie bei einem strukturierten oder teilweise strukturierten Dokument mithilfe dieser Eigenschaft einen Pfad zum Array angeben.
excludedFileNameExtensions	Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die bei der Verarbeitung aus Azure Blob Storage ignoriert werden sollen. Sie könnten beispielsweise ".png, .mp4" ausschließen, um diese Dateien während der Indizierung zu überspringen.
executionEnvironment	Gibt die Umgebung an, in der der Indexer ausgeführt werden soll.
failOnUnprocessableDocument	Legen Sie für Azure-Blobs auf false fest, wenn Sie die Indizierung fortsetzen möchten, wenn die Indizierung eines Dokuments fehlschlägt.
failOnUnsupportedContentType	Legen Sie für Azure-Blobs auf false fest, wenn Sie die Indizierung fortsetzen möchten, wenn ein nicht unterstützter Inhaltstyp gefunden wird und Sie nicht alle Inhaltstypen (Dateierweiterungen) im Voraus kennen.
firstLineContainsHeaders	Gibt für CSV-Blobs an, dass die erste Zeile (nicht leer) jedes Blobs Header enthält.
imageAction	Bestimmt, wie eingebettete Images und Imagedateien in Azure Blob Storage verarbeitet werden. Das Festlegen der "imageAction"-Konfiguration auf einen anderen Wert als "none" erfordert, dass diesem Indexer auch ein Skillset angefügt wird.
indexedFileNameExtensions	Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die bei der Verarbeitung aus Azure Blob Storage ausgewählt werden sollen. Beispielsweise können Sie die Indizierung auf spezifische Anwendungsdateien wie „.docx, .pptx, .msg“ beschränken, um diese Dateitypen explizit einzubeziehen.
indexStorageMetadataOnlyForOversizedDocuments	Legen Sie für Azure-Blobs diese Eigenschaft auf true fest, um weiterhin Speichermetadaten für Blobinhalte zu indizieren, die zu groß für die Verarbeitung sind. Zu große Blobs werden standardmäßig als Fehler behandelt. Grenzwerte für die Blobgröße finden Sie unter https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.
parsingMode	Stellt den Analysemodus für die Indizierung aus einer Azure-Blob-Datenquelle dar.
pdfTextRotationAlgorithm	Bestimmt den Algorithmus für die Textextraktion aus PDF-Dateien in Azure Blob Storage.
queryTimeout	Erhöht das Timeout über den Standardwert von 5 Minuten für Azure SQL Datenbankdatenquellen, die im Format "hh:mm:ss" angegeben sind.

Details zur Eigenschaft

allowSkillsetToReadFileData

Wenn true, wird ein Pfad //document//file_data erstellt, bei dem es sich um ein Objekt handelt, das die ursprünglichen Dateidaten darstellt, die aus Ihrer Blobdatenquelle heruntergeladen wurden. Dadurch können Sie die ursprünglichen Dateidaten an einen benutzerdefinierten Skill zur Verarbeitung in der Anreicherungspipeline oder an den Skill Dokumentextraktion übergeben.

allowSkillsetToReadFileData?: boolean

Eigenschaftswert

boolean

dataToExtract

Gibt die Daten an, die aus Azure Blob Storage extrahiert werden sollen, und teilt dem Indexer mit, welche Daten aus Imageinhalten extrahiert werden sollen, wenn "imageAction" auf einen anderen Wert als "none" festgelegt ist. Dies gilt für eingebettete Bildinhalte in einer .PDF oder einer anderen Anwendung oder Bilddateien wie .jpg und .png in Azure-Blobs.

dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"

Eigenschaftswert

"storageMetadata" | "allMetadata" | "contentAndMetadata"

delimitedTextDelimiter

Für CSV-Blobs gibt das einzeilige Endtrennzeichen für CSV-Dateien an, bei denen jede Zeile ein neues Dokument beginnt (z. B. "|").

delimitedTextDelimiter?: string

Eigenschaftswert

string

delimitedTextHeaders

Gibt für CSV-Blobs eine durch Trennzeichen getrennte Liste von Spaltenheadern an, die zum Zuordnen von Quellfeldern zu Zielfeldern in einem Index nützlich ist.

delimitedTextHeaders?: string

Eigenschaftswert

string

documentRoot

Für JSON-Arrays können Sie bei einem strukturierten oder teilweise strukturierten Dokument mithilfe dieser Eigenschaft einen Pfad zum Array angeben.

documentRoot?: string

Eigenschaftswert

string

excludedFileNameExtensions

Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die bei der Verarbeitung aus Azure Blob Storage ignoriert werden sollen. Sie könnten beispielsweise ".png, .mp4" ausschließen, um diese Dateien während der Indizierung zu überspringen.

excludedFileNameExtensions?: string

Eigenschaftswert

string

executionEnvironment

Gibt die Umgebung an, in der der Indexer ausgeführt werden soll.

executionEnvironment?: "standard" | "private"

Eigenschaftswert

"standard" | "private"

failOnUnprocessableDocument

Legen Sie für Azure-Blobs auf false fest, wenn Sie die Indizierung fortsetzen möchten, wenn die Indizierung eines Dokuments fehlschlägt.

failOnUnprocessableDocument?: boolean

Eigenschaftswert

boolean

failOnUnsupportedContentType

Legen Sie für Azure-Blobs auf false fest, wenn Sie die Indizierung fortsetzen möchten, wenn ein nicht unterstützter Inhaltstyp gefunden wird und Sie nicht alle Inhaltstypen (Dateierweiterungen) im Voraus kennen.

failOnUnsupportedContentType?: boolean

Eigenschaftswert

boolean

firstLineContainsHeaders

Gibt für CSV-Blobs an, dass die erste Zeile (nicht leer) jedes Blobs Header enthält.

firstLineContainsHeaders?: boolean

Eigenschaftswert

boolean

imageAction

Bestimmt, wie eingebettete Images und Imagedateien in Azure Blob Storage verarbeitet werden. Das Festlegen der "imageAction"-Konfiguration auf einen anderen Wert als "none" erfordert, dass diesem Indexer auch ein Skillset angefügt wird.

imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

Eigenschaftswert

"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

indexedFileNameExtensions

Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die bei der Verarbeitung aus Azure Blob Storage ausgewählt werden sollen. Beispielsweise können Sie die Indizierung auf spezifische Anwendungsdateien wie „.docx, .pptx, .msg“ beschränken, um diese Dateitypen explizit einzubeziehen.

indexedFileNameExtensions?: string

Eigenschaftswert

string

indexStorageMetadataOnlyForOversizedDocuments

Legen Sie für Azure-Blobs diese Eigenschaft auf true fest, um weiterhin Speichermetadaten für Blobinhalte zu indizieren, die zu groß für die Verarbeitung sind. Zu große Blobs werden standardmäßig als Fehler behandelt. Grenzwerte für die Blobgröße finden Sie unter https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

indexStorageMetadataOnlyForOversizedDocuments?: boolean

Eigenschaftswert

boolean

parsingMode

Stellt den Analysemodus für die Indizierung aus einer Azure-Blob-Datenquelle dar.

parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"

Eigenschaftswert

pdfTextRotationAlgorithm

Bestimmt den Algorithmus für die Textextraktion aus PDF-Dateien in Azure Blob Storage.

pdfTextRotationAlgorithm?: "none" | "detectAngles"

Eigenschaftswert

"none" | "detectAngles"

queryTimeout

Erhöht das Timeout über den Standardwert von 5 Minuten für Azure SQL Datenbankdatenquellen, die im Format "hh:mm:ss" angegeben sind.

queryTimeout?: string

Eigenschaftswert

string

Freigeben über

IndexingParametersConfiguration interface

Eigenschaften

Details zur Eigenschaft

allowSkillsetToReadFileData

Eigenschaftswert

dataToExtract

Eigenschaftswert

delimitedTextDelimiter

Eigenschaftswert

delimitedTextHeaders

Eigenschaftswert

documentRoot

Eigenschaftswert

excludedFileNameExtensions

Eigenschaftswert

executionEnvironment

Eigenschaftswert

failOnUnprocessableDocument

Eigenschaftswert

failOnUnsupportedContentType

Eigenschaftswert

firstLineContainsHeaders

Eigenschaftswert

imageAction

Eigenschaftswert

indexedFileNameExtensions

Eigenschaftswert

indexStorageMetadataOnlyForOversizedDocuments

Eigenschaftswert

parsingMode

Eigenschaftswert

pdfTextRotationAlgorithm

Eigenschaftswert

queryTimeout

Eigenschaftswert

Zusätzliche Ressourcen