Benutzerdefiniertes neuronales Dokument Intelligenz-Modell
Dieser Inhalt gilt für: Version 4.0 (GA) | Vorherige Versionen: Version 3.1 (GA) Version 3.0 (GA)
Dieser Inhalt gilt für: Version 3.1 (GA) | Aktuelle Version: Version 4.0 (GA) | Vorherige Versionen: Version 3.0
Dieser Inhalt gilt für: Version 3.0 (GA) | Aktuelle Versionen: Version 4.0 (GA) Version 3.1
Benutzerdefinierte neuronale Dokumentmodelle sind ein Deep Learning-Modell, das Layout- und Sprachfeatures kombiniert, um beschriftete Felder präzise aus Dokumenten zu extrahieren. Das benutzerdefinierte neuronale Basismodell wird mit verschiedenen Dokumenttypen trainiert, wodurch es zum Extrahieren von Feldern aus strukturierten und teilweise strukturierten Dokumenten geeignet ist. Benutzerdefinierte neurale Modelle sind in den v3.0 und späteren Modellen verfügbar. Mit V4.0 unterstützt das benutzerdefinierte neurale Modell jetzt die Signaturerkennung. In der folgenden Tabelle sind allgemeine Dokumenttypen für jede Kategorie aufgeführt:
Dokumente | Beispiele |
---|---|
Strukturiert | Umfragen, Fragebögen |
Teilweise strukturiert | Rechnungen, Bestellungen |
Benutzerdefinierte neuronale Modelle verwenden das gleiche Beschriftungsformat und dieselbe Strategie wie benutzerdefinierte Vorlagenmodelle. Derzeit unterstützen benutzerdefinierte neuronale Modelle nur eine Teilmenge der Feldtypen, die von benutzerdefinierten Vorlagenmodellen unterstützt werden.
Modellfunktionen
Wichtig
Das benutzerdefinierte neuronale Modell v4.0 2024-11-30
(GA) unterstützt überlappende Felder und Tabellenzellenkonfidenz.
Benutzerdefinierte neuronale Modelle unterstützen derzeit Schlüssel-Wert-Paare, Auswahlmarkierungen und strukturierte Felder (Tabellen).
Formularfelder | Auswahlmarkierungen | Tabellarische Felder | Signatur | Beschriften von Bereichen | Überlappende Felder |
---|---|---|---|---|---|
Unterstützt | Unterstützt | Unterstützt | Unterstützt | Unterstützt 1 | Unterstützt 2 |
1 Regionsbezeichnungen in benutzerdefinierten neuronalen Modellen verwenden die Ergebnisse der Layout-API für die angegebene Region. Dieses Feature unterscheidet sich von Vorlagenmodellen, bei denen Text während des Trainings generiert wird, wenn kein Wert vorhanden ist.
2 Überlappende Felder werden in Version 2024-11-30 (GA) der REST-API unterstützt. Überlappende Felder weisen einige Grenzwerte auf. Weitere Informationen finden Sie unter Überlappende Felder.
Buildmodus
Der Build
-Vorgang unterstützt Vorlagenmodelle und neurale benutzerdefinierte Modelle. Frühere Versionen der REST-API und der SDKs unterstützten nur einen einzigen Buildmodus, der nun als Vorlagenmodus bezeichnet wird.
Neuronale Modelle unterstützen Dokumente, die dieselben Informationen, aber unterschiedliche Seitenstrukturen enthalten. Zu diesen Dokumenten gehören beispielsweise die in den Vereinigten Staaten verwendeten W2-Steuerformulare. Sie enthalten die gleichen Informationen, können aber je nach Unternehmen unterschiedlich aussehen. Weitere Informationen finden Sie unter Buildmodus für benutzerdefinierte Modelle.
Überlappende Felder
Das benutzerdefinierte neuronale Modell v4.0 2024-11-30
(GA) unterstützt überlappende Felder:
Um die überlappenden Felder zu verwenden, muss ihr Dataset mindestens ein Beispiel mit der erwarteten Überlappung enthalten. Um eine Überlappung zu beschriften, verwenden Sie die Bereichsbezeichnung, um die einzelnen Inhaltspannen (mit der Überlappung) für jedes Feld festzulegen. Das Bezeichnen einer Überlappung mit der Feldauswahl (Hervorheben eines Werts) in Studio schlägt fehl, da die Bereichsbezeichnung das einzige unterstützte Bezeichnungstool für die Angabe von Feldüberlappungen ist. Die Überlappungsunterstützung umfasst:
- Vollständige Überlappung. Derselbe Tokensatz wird für zwei verschiedene Felder bezeichnet.
- Teilüberlappung. Einige Token gehören zu beiden Feldern, aber es gibt Token, die nur Teil eines Felds oder des anderen sind.
Überlappende Felder weisen einige Grenzwerte auf:
- Jedes Token oder Wort kann nur als zwei Felder bezeichnet werden.
- Überlappende Felder in einer Tabelle können keine Tabellenzeilen umfassen.
- Überlappende Felder können nur erkannt werden, wenn mindestens ein Beispiel im Dataset überlappende Bezeichnungen für diese Felder enthält.
Um überlappende Felder zu verwenden, bezeichnen Sie Ihr Dataset mit den Überlappungen, und trainieren Sie das Modell mit der API-Version **2024-11-30 (GA)**
.
Tabellarische Felder
Das benutzerdefinierte neuronale Modell v4.0 2024-11-30 (GA) unterstützt tabellarische Felder (Tabellen) zum Analysieren von Tabellen-, Zeilen- und Zelldaten mit zusätzlichem Vertrauen:
- Modelle, die mit API-Version 2022-06-30-preview oder höher trainiert wurden, akzeptieren tabellarische Feldbezeichnungen.
- Dokumente, die mit benutzerdefinierten neuronalen Modellen mithilfe der API-Version 2022-06-30-preview oder höher analysiert werden, erzeugen tabellarische Felder, die über Tabellen hinweg aggregiert werden.
- Die Ergebnisse finden Sie im
documents
-Array desanalyzeResult
-Objekts, das nach einem Analysevorgang zurückgegeben wird.
Tabellarische Felder unterstützen standardmäßig seitenübergreifende Tabellen:
- Um eine Tabelle zu beschriften, die mehrere Seiten umfasst, beschriften Sie jede Zeile der Tabelle auf den verschiedenen Seiten in einer einzelnen Tabelle.
- Stellen Sie als bewährte Methode sicher, dass Ihr Dataset ein paar Beispiele der erwarteten Varianten enthält. Fügen Sie z. B. Beispiele hinzu, in denen sich die gesamte Tabelle auf einer einzelnen Seite befindet und in denen Tabellen zwei oder mehr Seiten umfassen.
Tabellarische Felder sind auch nützlich, wenn Sie sich wiederholende Informationen aus einem Dokument extrahieren, das nicht als Tabelle erkannt wird. Beispielsweise kann ein sich wiederholender Abschnitt mit Arbeitserfahrungen in einem Lebenslauf als tabellarisches Feld beschriftet und extrahiert werden.
Tabellarische Felder bieten Tabellen-, Zeilen- und Zellvertrauenssicherheit mit der **2024-11-30 (GA)**
API:
Feste oder dynamische Tabellen fügen Vertrauensunterstützung für die folgenden Elemente hinzu:
- Tabellenvertrauen, ein Maß dafür, wie genau die gesamte Tabelle erkannt wird.
- Zeilenvertrauen, ein Maß für die Erkennung einer einzelnen Zeile.
- Zellvertrauen, ein Maß für die Erkennung einer einzelnen Zelle.
Der empfohlene Ansatz besteht darin, die Genauigkeit von oben nach unten zu überprüfen, beginnend mit der Tabelle zuerst, gefolgt von der Zeile und dann der Zelle. Weitere Informationen zu Tabellen-, Zeilen- und Zellvertrauenswerten finden Sie unter Konfidenz und Genauigkeit .
Unterstützte Sprachen und Gebietsschemas
Unter Sprachunterstützung: benutzerdefinierte Modelle finden Sie eine vollständige Liste der unterstützten Sprachen.
Unterstützte Regionen
Ab dem 18. Oktober 2022 wird das benutzerdefinierte Training neuronaler Modelle für Dokument Intelligenz bis auf Weiteres nur noch in den folgenden Azure-Regionen verfügbar sein:
- Australien (Osten)
- Brasilien Süd
- Kanada, Mitte
- Indien, Mitte
- USA (Mitte)
- Asien, Osten
- East US
- USA (Ost 2)
- Frankreich, Mitte
- Japan, Osten
- USA Süd Mitte
- Asien, Südosten
- UK, Süden
- Europa, Westen
- USA, Westen 2
- US Gov Arizona
- US Government, Virginia
Tipp
Sie können ein Modell, das in einer der ausgewählten aufgelisteten Regionen trainiert wurde, in eine beliebige andere Region kopieren und entsprechend verwenden.
Verwenden Sie die REST-API oder Dokument Intelligenz Studio, um ein Modell in eine andere Region zu kopieren.
Tipp
Sie können ein Modell, das in einer der ausgewählten aufgelisteten Regionen trainiert wurde, in eine beliebige andere Region kopieren und entsprechend verwenden.
Verwenden Sie die REST-API oder Dokument Intelligenz Studio, um ein Modell in eine andere Region zu kopieren.
Tipp
Sie können ein Modell, das in einer der ausgewählten aufgelisteten Regionen trainiert wurde, in eine beliebige andere Region kopieren und entsprechend verwenden.
Verwenden Sie die REST-API oder Dokument Intelligenz Studio, um ein Modell in eine andere Region zu kopieren.
Eingabeanforderungen
Die besten Ergebnisse erzielen Sie, wenn Sie pro Dokument ein deutliches Foto oder einen hochwertigen Scan bereitstellen.
Unterstützte Dateiformate:
Modell PDF Bild:
jpeg/jpg
,png
,bmp
,tiff
,heif
Microsoft Office:
Word (docx), Excel (xlsx), PowerPoint (pptx) und HTMLLesen ✔ ✔ ✔ Layout ✔ ✔ ✔ Allgemeines Dokument ✔ ✔ Vordefiniert ✔ ✔ Benutzerdefiniertes neuronales Modell ✔ ✔ ✱ Microsoft Office-Dateien werden derzeit für andere Modelle oder Versionen nicht unterstützt.
In den Formaten PDF und TIFF können bis zu 2,000 Seiten verarbeitet werden (bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet).
Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für die kostenpflichtige (S0) und 4 MB für die kostenlose (F0) Stufe.
Die Bildgrößen müssen im Bereich zwischen 50 × 50 Pixel und 10.000 × 10.000 Pixel liegen.
Wenn Ihre PDFs kennwortgeschützt sind, müssen Sie die Sperre vor dem Senden entfernen.
Die Mindesthöhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 × 768 Pixel. Diese Abmessung entspricht etwa einem
8
-Punkt-Text bei 150 Punkten pro Zoll.Die maximale Anzahl Seiten für Trainingsdaten beträgt beim benutzerdefinierten Modelltraining 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neuronale Modell.
Für das Training des benutzerdefinierten Extraktionsmodells beträgt die Gesamtgröße der Trainingsdaten 50 MB für das Vorlagenmodell und 1G-MB für das neuronale Modell.
Für das Training des benutzerdefinierten Klassifizierungsmodells beträgt die Gesamtgröße der Trainingsdaten
1GB
mit einem Maximum von 10 000 Seiten.
Bewährte Methoden
Benutzerdefinierte neuronale Modelle unterscheiden sich auf verschiedene Weise von benutzerdefinierten Vorlagenmodellen. Das benutzerdefinierte Vorlagenmodell basiert auf einer konsistenten visuellen Vorlage, um die beschrifteten Daten zu extrahieren. Benutzerdefinierte neurale Modelle unterstützen strukturierte und teilweise strukturierte Dokumente zum Extrahieren von Feldern. Beginnen Sie bei der Auswahl des Modelltyps mit einem neuralen Modell, und testen Sie, ob es Ihre funktionalen Anforderungen unterstützt.
- Umgang mit Variationen: Benutzerdefinierte neurale Modelle können über die verschiedenen Formate eines einzelnen Dokumenttyps generalisiert werden. Als bewährte Methode wird ein einzelnes Modell für alle Variationen eines Dokumenttyps erstellt. Fügen Sie dem Trainingsdataset mindestens fünf beschriftete Stichproben für jede der verschiedenen Variationen hinzu.
- Feldbenennung: Die Bezeichnung der Daten des Felds, das für den Wert relevant ist, führt zu einer Verbesserung der Genauigkeit der extrahierten Schlüssel-Wert-Paare. Für einen Feldwert, der die Lieferanten-ID enthält, sollten Sie das Feld beispielsweise supplier_id benennen. Feldnamen sollten die Sprache des Dokuments verwenden.
- Bezeichnung zusammenhängender Werte: Werttoken/Wörter eines Felds müssen eine der folgenden Eigenschaften aufweisen:
- Eine aufeinanderfolgende Sequenz in natürlicher Lesereihenfolge ohne Überlappung mit anderen Feldern sein
- Sich in einem Bereich befinden, der keine anderen Felder abdeckt
- Repräsentative Daten: Werte in Trainingsfällen sollten vielfältig und repräsentativ sein. Wenn ein Feld beispielsweise den Namen date hat, sollten die Werte für dieses Feld ein Datum sein. Ein synthetischer Wert wie eine zufällige Zeichenfolge kann sich auf die Modellleistung auswirken.
Aktuelle Einschränkungen
- Das benutzerdefinierte neuronale Modell erkennt keine Werte, die über Seitengrenzen hinweg geteilt werden.
- Nicht unterstützte Feldtypen für benutzerdefinierte neuronale Modelle werden ignoriert, wenn ein Datensatz, der für benutzerdefinierte Vorlagenmodelle gekennzeichnet ist, zum Trainieren eines benutzerdefinierten neuronalen Modells verwendet wird.
- Benutzerdefinierte neuronale Modelle sind auf 20 Buildvorgänge pro Monat beschränkt. Erstellen Sie eine Supportanfrage, wenn Sie den Grenzwert erhöhen müssen. Weitere Informationen finden Sie unter Dokument Intelligenz-Dienst – Kontingente und Grenzwerte.
Trainieren eines Modells
Benutzerdefinierte neuronale Modelle sind im v3.0-Modell und höheren Modellen verfügbar.
Dokumenttyp | REST-API | SDK | Beschriften und Testen von Modellen |
---|---|---|---|
Benutzerdefiniertes Dokument | Dokument Intelligenz 3.1 | Document Intelligence SDK | Dokument Intelligenz Studio |
Der Build
-Vorgang zum Trainieren eines Modells unterstützt die neue buildMode
-Eigenschaft. Legen Sie buildMode
auf neural
fest, um ein benutzerdefiniertes neurales Modell zu trainieren.
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-11-30
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Abrechnung
Mit Version v4.0 2024-11-30 (GA)
können Sie Ihr benutzerdefiniertes neuronales Modell länger als die Standarddauer von 30 Minuten trainieren. Frühere Versionen sind auf 30 Minuten pro Trainingsinstanz und insgesamt 20 kostenlose Trainingsinstanzen pro Monat begrenzt. Mit Version v4.0 2024-11-30 (GA)
können Sie 10 Stunden an kostenlosem Modelltraining erhalten und ein Modell für bis zu 10 Stunden trainieren.
Sie können die 10 kostenlosen Stunden für einen einzelnen Modellbuild mit einer großen Datenmenge oder für mehrere Builds verwenden, indem Sie den maximalen Dauerwert für den build
-Vorgang durch Angeben von maxTrainingHours
anpassen:
POST https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-11-30
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
...,
"maxTrainingHours": 10
}
Wichtig
- Wenn Sie weitere neuronale Modelle oder Modelle allgemein für einen längeren Zeitraum als 10 Stunden trainieren möchten, fallen Abrechnungsgebühren an. Ausführliche Informationen zu den Abrechnungsgebühren finden Sie auf der Preisseite.
- Sie können sich für diesen kostenpflichtigen Trainingsdienst anmelden, indem Sie die
maxTrainingHours
auf die gewünschte maximale Anzahl von Stunden festlegen. Bei API-Aufrufen ohne Budget aber mitmaxTrainingHours
über 10 Stunden tritt ein Fehler auf. - Jeder Build nimmt je nach Typ und Größe des Trainingsdatasets unterschiedlich viel Zeit in Anspruch. Die Abrechnung erfolgt für die tatsächlich für das Training des neuronalen Modells aufgewendete Zeit mit mindestens 30 Minuten pro Trainingsauftrag.
- Mit diesem Feature für kostenpflichtiges Training können Sie größere Datasets für längere Zeiträume mit flexiblen Trainingsstunden trainieren.
GET /documentModels/{myCustomModel}
{
"modelId": "myCustomModel",
"trainingHours": 0.23,
"docTypes": { ... },
...
}
Hinweis
Für die Dokument Intelligenz-Versionen v3.1 (2023-07-31)
und v3.0 (2022-08-31)
ist das kostenpflichtige Training des benutzerdefinierten neuronalen Modells ist nicht aktiviert. Für die beiden älteren Versionen gilt eine maximale Trainingsdauer von 30 Minuten pro Modell. Wenn Sie mehr als 20 Modellinstanzen trainieren möchten, können Sie ein Azure-Supportticket erstellen, um das Trainingslimit zu erhöhen.
Abrechnung
Für die Dokument Intelligenz-Versionen v3.1 (2023-07-31) and v3.0 (2022-08-31)
erhalten Sie maximal 30 Minuten Trainingsdauer pro Modell und maximal 20 kostenlose Trainings pro Monat. Wenn Sie mehr als 20 Modellinstanzen trainieren möchten, können Sie ein Azure-Supportticket erstellen, um das Trainingslimit zu erhöhen. Geben Sie für das Azure-Supportticket im Feld summary
ein: Increase Document Intelligence custom neural training (TPS) limit
.
Wichtig
- Beim Erhöhen des Trainingslimits werden zwei Trainingssitzungen mit benutzerdefiniertem neuronalem Modell als eine Trainingsstunde betrachtet. Weitere Informationen zu den Preisen für die Erhöhung der Anzahl von Trainingssitzungen finden Sie* auf der Preisseite.
- Das Azure-Supportticket für die Erhöhung des Trainingslimits kann nur auf Ressourcenebene und nicht auf Abonnementebene angewandt werden. Sie können eine Erhöhung des Trainingslimits für eine einzelne Dokument Intelligenz-Ressource anfordern, indem Sie Ihre Ressourcen-ID und -region im Supportticket angeben.
Wenn Sie Modelle länger als 30 Minuten trainieren möchten, wird kostenpflichtiges Training mit Version v4.0 2024-11-30 (GA)
unterstützt. Mit der neuesten Version können Sie Ihr Modell länger trainieren, um größere Dokumente zu verarbeiten. Weitere Informationen zu kostenpflichtigem Training finden Sie unter Abrechnung v4.0.
Abrechnung
Für die Dokument Intelligenz-Versionen v3.1 (2023-07-31) and v3.0 (2022-08-31)
erhalten Sie maximal 30 Minuten Trainingsdauer pro Modell und maximal 20 kostenlose Trainings pro Monat. Wenn Sie mehr als 20 Modellinstanzen trainieren möchten, können Sie ein Azure-Supportticket erstellen, um das Trainingslimit zu erhöhen. Geben Sie für das Azure-Supportticket im Feld summary
ein: Increase Document Intelligence custom neural training (TPS) limit
.
Wichtig
- Beim Erhöhen des Trainingslimits werden zwei Trainingssitzungen mit benutzerdefiniertem neuronalem Modell als eine Trainingsstunde betrachtet. Weitere Informationen zu den Preisen für die Erhöhung der Anzahl von Trainingssitzungen finden Sie auf der Preisseite.
- Das Azure-Supportticket für die Erhöhung des Trainingslimits kann nur auf Ressourcenebene und nicht auf Abonnementebene angewandt werden. Sie können eine Erhöhung des Trainingslimits für eine einzelne Dokument Intelligenz-Ressource anfordern, indem Sie Ihre Ressourcen-ID und -region im Supportticket angeben.
Wenn Sie Modelle länger als 30 Minuten trainieren möchten, wird kostenpflichtiges Training mit der neuesten Version, v4.0 (2024-11-30)
, unterstützt Mit der neuesten Version können Sie Ihr Modell länger trainieren, um größere Dokumente zu verarbeiten. Weitere Informationen zu kostenpflichtigem Training finden Sie unter Abrechnung v4.0.
Nächste Schritte
Erfahren Sie, wie Sie benutzerdefinierte Modelle erstellen und zusammenstellen: