IndexingParametersConfiguration interface
Ein Wörterbuch mit indexerspezifischen Konfigurationseigenschaften. Jeder Name ist der Name einer bestimmten Eigenschaft. Jeder Wert muss einen primitiven Typ aufweisen.
Eigenschaften
allow |
Wenn true, wird ein Pfad //document//file_data erstellt, bei dem es sich um ein Objekt handelt, das die ursprünglichen Dateidaten darstellt, die aus Ihrer Blobdatenquelle heruntergeladen wurden. Dadurch können Sie die ursprünglichen Dateidaten an einen benutzerdefinierten Skill zur Verarbeitung in der Anreicherungspipeline oder an den Skill Dokumentextraktion übergeben. |
data |
Gibt die Daten an, die aus Azure Blob Storage extrahiert werden sollen, und teilt dem Indexer mit, welche Daten aus Imageinhalten extrahiert werden sollen, wenn "imageAction" auf einen anderen Wert als "none" festgelegt ist. Dies gilt für eingebettete Bildinhalte in einer .PDF oder einer anderen Anwendung oder Bilddateien wie .jpg und .png in Azure-Blobs. |
delimited |
Für CSV-Blobs gibt das einzeilige Endtrennzeichen für CSV-Dateien an, bei denen jede Zeile ein neues Dokument beginnt (z. B. "|"). |
delimited |
Gibt für CSV-Blobs eine durch Trennzeichen getrennte Liste von Spaltenheadern an, die zum Zuordnen von Quellfeldern zu Zielfeldern in einem Index nützlich ist. |
document |
Für JSON-Arrays können Sie bei einem strukturierten oder teilweise strukturierten Dokument mithilfe dieser Eigenschaft einen Pfad zum Array angeben. |
excluded |
Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die bei der Verarbeitung aus Azure Blob Storage ignoriert werden sollen. Sie könnten beispielsweise ".png, .mp4" ausschließen, um diese Dateien während der Indizierung zu überspringen. |
execution |
Gibt die Umgebung an, in der der Indexer ausgeführt werden soll. |
fail |
Legen Sie für Azure-Blobs auf false fest, wenn Sie die Indizierung fortsetzen möchten, wenn die Indizierung eines Dokuments fehlschlägt. |
fail |
Legen Sie für Azure-Blobs auf false fest, wenn Sie die Indizierung fortsetzen möchten, wenn ein nicht unterstützter Inhaltstyp gefunden wird und Sie nicht alle Inhaltstypen (Dateierweiterungen) im Voraus kennen. |
first |
Gibt für CSV-Blobs an, dass die erste Zeile (nicht leer) jedes Blobs Header enthält. |
image |
Bestimmt, wie eingebettete Images und Imagedateien in Azure Blob Storage verarbeitet werden. Das Festlegen der "imageAction"-Konfiguration auf einen anderen Wert als "none" erfordert, dass diesem Indexer auch ein Skillset angefügt wird. |
indexed |
Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die bei der Verarbeitung aus Azure Blob Storage ausgewählt werden sollen. Beispielsweise können Sie die Indizierung auf spezifische Anwendungsdateien wie „.docx, .pptx, .msg“ beschränken, um diese Dateitypen explizit einzubeziehen. |
index |
Legen Sie für Azure-Blobs diese Eigenschaft auf true fest, um weiterhin Speichermetadaten für Blobinhalte zu indizieren, die zu groß für die Verarbeitung sind. Zu große Blobs werden standardmäßig als Fehler behandelt. Grenzwerte für die Blobgröße finden Sie unter https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
parsing |
Stellt den Analysemodus für die Indizierung aus einer Azure-Blob-Datenquelle dar. |
pdf |
Bestimmt den Algorithmus für die Textextraktion aus PDF-Dateien in Azure Blob Storage. |
query |
Erhöht das Timeout über den Standardwert von 5 Minuten für Azure SQL Datenbankdatenquellen, die im Format "hh:mm:ss" angegeben sind. |
Details zur Eigenschaft
allowSkillsetToReadFileData
Wenn true, wird ein Pfad //document//file_data erstellt, bei dem es sich um ein Objekt handelt, das die ursprünglichen Dateidaten darstellt, die aus Ihrer Blobdatenquelle heruntergeladen wurden. Dadurch können Sie die ursprünglichen Dateidaten an einen benutzerdefinierten Skill zur Verarbeitung in der Anreicherungspipeline oder an den Skill Dokumentextraktion übergeben.
allowSkillsetToReadFileData?: boolean
Eigenschaftswert
boolean
dataToExtract
Gibt die Daten an, die aus Azure Blob Storage extrahiert werden sollen, und teilt dem Indexer mit, welche Daten aus Imageinhalten extrahiert werden sollen, wenn "imageAction" auf einen anderen Wert als "none" festgelegt ist. Dies gilt für eingebettete Bildinhalte in einer .PDF oder einer anderen Anwendung oder Bilddateien wie .jpg und .png in Azure-Blobs.
dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"
Eigenschaftswert
"storageMetadata" | "allMetadata" | "contentAndMetadata"
delimitedTextDelimiter
Für CSV-Blobs gibt das einzeilige Endtrennzeichen für CSV-Dateien an, bei denen jede Zeile ein neues Dokument beginnt (z. B. "|").
delimitedTextDelimiter?: string
Eigenschaftswert
string
delimitedTextHeaders
Gibt für CSV-Blobs eine durch Trennzeichen getrennte Liste von Spaltenheadern an, die zum Zuordnen von Quellfeldern zu Zielfeldern in einem Index nützlich ist.
delimitedTextHeaders?: string
Eigenschaftswert
string
documentRoot
Für JSON-Arrays können Sie bei einem strukturierten oder teilweise strukturierten Dokument mithilfe dieser Eigenschaft einen Pfad zum Array angeben.
documentRoot?: string
Eigenschaftswert
string
excludedFileNameExtensions
Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die bei der Verarbeitung aus Azure Blob Storage ignoriert werden sollen. Sie könnten beispielsweise ".png, .mp4" ausschließen, um diese Dateien während der Indizierung zu überspringen.
excludedFileNameExtensions?: string
Eigenschaftswert
string
executionEnvironment
Gibt die Umgebung an, in der der Indexer ausgeführt werden soll.
executionEnvironment?: "standard" | "private"
Eigenschaftswert
"standard" | "private"
failOnUnprocessableDocument
Legen Sie für Azure-Blobs auf false fest, wenn Sie die Indizierung fortsetzen möchten, wenn die Indizierung eines Dokuments fehlschlägt.
failOnUnprocessableDocument?: boolean
Eigenschaftswert
boolean
failOnUnsupportedContentType
Legen Sie für Azure-Blobs auf false fest, wenn Sie die Indizierung fortsetzen möchten, wenn ein nicht unterstützter Inhaltstyp gefunden wird und Sie nicht alle Inhaltstypen (Dateierweiterungen) im Voraus kennen.
failOnUnsupportedContentType?: boolean
Eigenschaftswert
boolean
firstLineContainsHeaders
Gibt für CSV-Blobs an, dass die erste Zeile (nicht leer) jedes Blobs Header enthält.
firstLineContainsHeaders?: boolean
Eigenschaftswert
boolean
imageAction
Bestimmt, wie eingebettete Images und Imagedateien in Azure Blob Storage verarbeitet werden. Das Festlegen der "imageAction"-Konfiguration auf einen anderen Wert als "none" erfordert, dass diesem Indexer auch ein Skillset angefügt wird.
imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
Eigenschaftswert
"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
indexedFileNameExtensions
Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die bei der Verarbeitung aus Azure Blob Storage ausgewählt werden sollen. Beispielsweise können Sie die Indizierung auf spezifische Anwendungsdateien wie „.docx, .pptx, .msg“ beschränken, um diese Dateitypen explizit einzubeziehen.
indexedFileNameExtensions?: string
Eigenschaftswert
string
indexStorageMetadataOnlyForOversizedDocuments
Legen Sie für Azure-Blobs diese Eigenschaft auf true fest, um weiterhin Speichermetadaten für Blobinhalte zu indizieren, die zu groß für die Verarbeitung sind. Zu große Blobs werden standardmäßig als Fehler behandelt. Grenzwerte für die Blobgröße finden Sie unter https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.
indexStorageMetadataOnlyForOversizedDocuments?: boolean
Eigenschaftswert
boolean
parsingMode
Stellt den Analysemodus für die Indizierung aus einer Azure-Blob-Datenquelle dar.
parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
Eigenschaftswert
"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
pdfTextRotationAlgorithm
Bestimmt den Algorithmus für die Textextraktion aus PDF-Dateien in Azure Blob Storage.
pdfTextRotationAlgorithm?: "none" | "detectAngles"
Eigenschaftswert
"none" | "detectAngles"
queryTimeout
Erhöht das Timeout über den Standardwert von 5 Minuten für Azure SQL Datenbankdatenquellen, die im Format "hh:mm:ss" angegeben sind.
queryTimeout?: string
Eigenschaftswert
string