Verwenden der inkrementellen Klassifizierer von Dokument Intelligenz
Dieser Inhalt gilt für: Version 4.0 (GA)
Azure KI Dokument Intelligenz ist ein cloudbasierter Azure KI Service, um damit intelligente Lösungen für die Dokumentverarbeitung erstellen zu können. Mit den Dokument Intelligenz-APIs werden Bilder, PDFs und andere Dokumentdateien analysiert, um verschiedene Inhalts-, Layout-, Stil- und semantische Elemente zu extrahieren und zu erkennen.
Benutzerdefinierte Klassifizierungsmodelle sind Deep Learning-Modelltypen, die Layout- und Sprachfeatures kombinieren, um die in Ihrer Anwendung verarbeiteten Dokumente genau zu erkennen und zu identifizieren. Benutzerdefinierte Klassifizierungsmodelle führen eine seitenweise Klassifizierung einer Eingabedatei durch, um die darin enthaltenen Dokumente zu identifizieren. Sie können auch mehrere Dokumente oder mehrere Instanzen eines einzelnen Dokuments innerhalb einer Eingabedatei identifizieren.
Dokumenterkennungsdokumentklassifizierer identifizieren bekannte Dokumenttypen in Dateien. Verwenden Sie beim Verarbeiten einer Eingabedatei mit mehreren Dokumenttypen oder wenn Sie den Dokumenttyp nicht kennen, einen Klassifizierer, um das Dokument zu identifizieren. Klassifizierer sollten regelmäßig aktualisiert werden, wenn die folgenden Änderungen vorgenommen werden:
- Sie fügen neue Vorlagen für eine vorhandene Klasse hinzu.
- Sie fügen neue Dokumenttypen für die Erkennung hinzu.
- Die Klassifiziererkonfidenz ist niedrig.
In einigen Szenarien können Sie nicht mehr über den ursprünglichen Satz von Dokumenten verfügen, die zum Trainieren des Klassifizierers verwendet werden. Mit inkrementellen Trainings können Sie den Klassifizierer jetzt mit nur den neuen beschrifteten Beispielen aktualisieren.
Hinweis
Inkrementelle Schulung gilt nur für Dokumentklassifizierermodelle und nicht für benutzerdefinierte Modelle.
Inkrementelle Schulung ist nützlich, wenn Sie die Qualität eines benutzerdefinierten Klassifizierers verbessern möchten. Durch das Hinzufügen neuer Schulungsbeispiele für vorhandene Klassen wird das Vertrauen des Modells für vorhandene Dokumenttypen verbessert. Wenn beispielsweise eine neue Version eines vorhandenen Formulars hinzugefügt wird oder ein neuer Dokumenttyp vorhanden ist. Ein Beispiel kann sein, wenn Ihre Anwendung mit der Unterstützung eines neuen Dokumenttyps als gültige Eingabe beginnt.
Erste Schritte mit inkrementellen Schulungen
Inkrementelle Schulung führt keine neuen API-Endpunkte ein.
Die Anforderungsnutzlast
documentClassifiers:build
wird geändert, um inkrementelle Schulungen zu unterstützen.Inkrementelle Schulung führt dazu, dass ein neues Klassifizierermodell erstellt wird, bei dem der vorhandene Klassifizierer unverändert bleibt.
Der neue Klassifizierer verfügt über alle Dokumentbeispiele und -typen des alten Klassifizierers zusammen mit den neu bereitgestellten Beispielen. Sie müssen sicherstellen, dass Ihre Anwendung Updates für die Arbeit mit dem neu trainierten Klassifizierer ist.
Hinweis
Der Kopiervorgang für Klassifizierer ist zurzeit nicht verfügbar.
Erstellen einer inkrementellen Klassifizierer-Buildanforderung
Die inkrementelle Klassifiziererbuildanforderung ähnelt der classify document
-Buildanforderung, enthält aber die neue Eigenschaft baseClassifierId
. Die baseClassifierId
-Eigenschaft wird auf den vorhandenen Klassifizierer festgelegt, den Sie erweitern möchten. Sie müssen auch die docTypes
für die verschiedenen Dokumenttypen im Mustersatz angeben. Durch die Angabe eines docType
, das im baseClassifier vorhanden ist, werden die in der Anfrage angegebenen Stichproben zu den Stichproben hinzugefügt, die beim Training des baseClassifiers angegeben wurden. Neue docType
-Werte, die in der inkrementellen Schulung hinzugefügt werden, werden nur dem neuen Klassifizierer hinzugefügt. Der Prozess zur Angabe der Proben bleibt unverändert. Weitere Informationen finden Sie unter Training eines Klassifizierermodells.
POST-Beispielanforderung
Beispielanforderung POST
zum Erstellen eines inkrementellen Dokumentklassifizierers
POST
{your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"fileList": "formB.jsonl"
}
}
}
}
POST-Antwort
Alle Document Intelligence-APIs sind asynchron, und das Abrufen des zurückgegebenen Vorgangsspeicherorts stellt einen Status für den Buildvorgang bereit. Klassifizierer sind schnell zu trainieren, und Ihr Klassifizierer kann in einer oder zwei Minuten verwendet werden.
Nach erfolgreichem Abschluss:
- Die erfolgreiche
POST
-Methode gibt einen202 OK
-Antwortcode zurück, der anzeigt, dass der Dienst die Anfrage erstellt hat. - Die übersetzten Dokumente werden in Ihrem Zielcontainer aufgeführt.
- Die
POST
Anforderung gibt auch Antwortheader zurück, einschließlichOperation-Location
. Der Wert dieses Headers enthält eineresultId
, die abgefragt werden kann, um den Status des asynchronen Vorgangs und die Ergebnisse mithilfe einerGET
-Anforderung mit demselben Ressourcenabonnementschlüssel abzurufen:
Abrufbeipsielanforderung
Beispielanforderung GET
zum Abrufen des Ergebnisses eines inkrementellen Dokumentklassifizierers
GET
{your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"createdDateTime": "2022-07-30T00:00:00Z",
"expirationDateTime": "2023-01-01T00:00:00Z",
"apiVersion": "2024-02-29-preview",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"fileList": "formB.jsonl"
}
}
}
}
GET-Antwort
Die GET
Antwort eines inkrementell trainierten Klassifizierers unterscheidet sich von der Standardklassifiziererantwort GET
. Der inkrementell trainierte Klassifizierer gibt nicht alle unterstützten Dokumenttypen zurück. Sie gibt die Dokumenttypen zurück, die im inkrementellen Schulungsschritt und dem erweiterten Basisklassifizierer hinzugefügt oder aktualisiert wurden. Um eine vollständige Liste der Dokumenttypen abzurufen, muss der Basisklassifizierer aufgelistet werden. Das Löschen eines Basisklassifizierers wirkt sich nicht auf die Verwendung eines inkrementell trainierten Klassifizierers aus.
Grenzwerte
Inkrementelle Schulung funktioniert nur, wenn der Basisklassifizierer und der inkrementell trainierte Klassifizierer in derselben API-Version trainiert werden. Daher hat der inkrementell trainierte Klassifizierer den gleichen Modelllebenszyklus wie der Basisklassifizierer.
Größenbeschränkungen für Schulungsdatensätze für den inkrementellen Klassifizierer sind identisch mit anderen Klassifizierermodellen. Eine vollständige Liste der geltenden Grenzwerte finden Sie unter Dienstgrenzwerte .
Nächste Schritte
- Erfahren Sie mehr über die Dokumentklassifizierung.