Anpassade modeller för Dokumentinformation
Det här innehållet gäller för: v4.0 (GA) | Tidigare versioner: v3.1 (GA) v3.0 (GA) v2.1 (GA)
::: moniker-end
Det här innehållet gäller för: v3.1 (GA) | Senaste version: v4.0 (GA) | Tidigare versioner: v3.0 v2.1
Det här innehållet gäller för: v3.0 (GA) | Senaste versioner: v4.0 (GA) v3.1 | Föregående version: v2.1
Det här innehållet gäller för: v2.1 | Senaste version: v4.0 (GA)
Dokumentinformation använder avancerad maskininlärningsteknik för att identifiera dokument, identifiera och extrahera information från formulär och dokument och returnera extraherade data i en strukturerad JSON-utdata. Med Dokumentinformation kan du använda dokumentanalysmodeller, förbyggda/förtränade eller dina tränade fristående anpassade modeller.
Anpassade modeller innehåller nu anpassade klassificeringsmodeller för scenarier där du behöver identifiera dokumenttypen innan du anropar extraheringsmodellen. Klassificerarmodeller är tillgängliga från och med API:et 2023-07-31 (GA)
. En klassificeringsmodell kan paras ihop med en anpassad extraheringsmodell för att analysera och extrahera fält från formulär och dokument som är specifika för ditt företag. Fristående anpassade extraheringsmodeller kan kombineras för att skapa sammansatta modeller.
Anpassade dokumentmodelltyper
Anpassade dokumentmodeller kan vara en av två typer, anpassad mall eller anpassat formulär och anpassade neurala eller anpassade dokumentmodeller. Märknings- och träningsprocessen för båda modellerna är identisk, men modellerna skiljer sig åt på följande sätt:
Anpassade extraheringsmodeller
Skapa en anpassad extraheringsmodell genom att märka en datamängd med dokument med de värden som du vill extrahera och träna modellen på den märkta datamängden. Du behöver bara fem exempel av samma formulär- eller dokumenttyp för att komma igång.
Anpassad neural modell
Viktigt!
API för dokumentinformation v4.0 2024-11-30 (GA)
stöder anpassade neurala modellöverlappande fält, signaturidentifiering och tabell, konfidens på rad- och cellnivå.
Den anpassade neurala modellen (anpassat dokument) använder djupinlärningsmodeller och basmodeller som tränats på en stor samling dokument. Den här modellen finjusteras eller anpassas sedan till dina data när du tränar modellen med en märkt datauppsättning. Anpassade neurala modeller stöder extrahering av nyckeldatafält från strukturerade, halvstrukturerade och ostrukturerade dokument. När du väljer mellan de två modelltyperna börjar du med en neural modell för att avgöra om den uppfyller dina funktionella behov. Mer information om anpassade dokumentmodeller finns i neurala modeller .
Anpassad mallmodell
Den anpassade mallen eller den anpassade formulärmodellen förlitar sig på en konsekvent visuell mall för att extrahera etiketterade data. Varianser i den visuella strukturen i dina dokument påverkar modellens noggrannhet. Strukturerade formulär som enkäter eller program är exempel på konsekventa visuella mallar.
Träningsuppsättningen består av strukturerade dokument där formateringen och layouten är statiska och konstanta från en dokumentinstans till en annan. Anpassade mallmodeller stöder nyckel/värde-par, markeringsmarkeringar, tabeller, signaturfält och regioner. Mallmodeller och kan tränas på dokument på något av de språk som stöds. Mer information finns i anpassade mallmodeller.
Om språket i dina dokument och extraheringsscenarier stöder anpassade neurala modeller rekommenderar vi att du använder anpassade neurala modeller över mallmodeller för högre noggrannhet.
Dricks
Om du vill bekräfta att träningsdokumenten innehåller en konsekvent mall för visuella objekt tar du bort alla användarangivna data från varje formulär i uppsättningen. Om de tomma formulären är identiska i utseende representerar de en konsekvent visuell mall.
Mer information finns i Tolka och förbättra noggrannheten och konfidensen för anpassade modeller.
Indatakrav
För bästa resultat anger du ett tydligt foto eller en genomsökning av hög kvalitet per dokument.
Filformat som stöds:
Modell PDF Bild: jpeg/jpg
,png
,bmp
, ,tiff
heif
Microsoft Office:
Word (docx), Excel (xlsx), PowerPoint (pptx)Lästa ✔ ✔ ✔ Layout ✔ ✔ ✔ Allmänt dokument ✔ ✔ Inbyggda ✔ ✔ Anpassad extrahering ✔ ✔ Anpassad klassificering ✔ ✔ ✔ ✱ Microsoft Office-filer stöds för närvarande inte för andra modeller eller versioner.
För PDF och TIFF kan upp till 2 000 sidor bearbetas (med en prenumeration på den kostnadsfria nivån bearbetas endast de två första sidorna).
Filstorleken för att analysera dokument är 500 MB för den betalda nivån (S0) och 4 MB för den kostnadsfria nivån (F0).
Bilddimensionerna måste vara mellan 50 x 50 bildpunkter och 10 000 px x 10 000 bildpunkter.
Om dina PDF-filer är låsta med lösenord måste du ta bort låset innan du skickar filerna.
Den minsta höjden på texten som ska extraheras är 12 bildpunkter för en bild på 1 024 x 768 bildpunkter. Den här dimensionen motsvarar ungefär
8
-punkttext vid 150 punkter per tum.För anpassad modellträning är det maximala antalet sidor för träningsdata 500 för den anpassade mallmodellen och 50 000 för den anpassade neurala modellen.
För anpassad extraheringsmodellträning är den totala storleken på träningsdata 50 MB för mallmodellen och 1G-MB för den neurala modellen.
För anpassad klassificeringsmodellträning är
1GB
den totala storleken på träningsdata med högst 10 000 sidor.
Optimala träningsdata
Träningsindata är grunden för alla maskininlärningsmodeller. Den avgör modellens kvalitet, noggrannhet och prestanda. Därför är det viktigt att skapa bästa möjliga träningsdata för ditt dokumentinformationsprojekt. När du använder den anpassade modellen För dokumentinformation anger du dina egna träningsdata. Här följer några tips som hjälper dig att träna dina modeller effektivt:
Använd textbaserade i stället för bildbaserade PDF-filer när det är möjligt. Ett sätt att identifiera en bild*baserad PDF är att prova att välja specifik text i dokumentet. Om du bara kan välja hela bilden av texten är dokumentet bildbaserat, inte textbaserat.
Organisera dina träningsdokument med hjälp av en undermapp för varje format (JPEG/JPG, PNG, BMP, PDF eller TIFF).
Använd formulär som har alla tillgängliga fält slutförda.
Använd formulär med olika värden i varje fält.
Använd en större datamängd (mer än fem träningsdokument) om dina bilder är av låg kvalitet.
Kontrollera om du behöver använda en enskild modell eller flera modeller som består av en enda modell.
Överväg att segmentera datamängden i mappar, där varje mapp är en unik mall. Träna en modell per mapp och skriv de resulterande modellerna till en enda slutpunkt. Modellens noggrannhet kan minska när du har olika format som analyserats med en enda modell.
Överväg att segmentera datamängden för att träna flera modeller om formuläret har variationer med format och sidbrytningar. Anpassade formulär förlitar sig på en konsekvent visuell mall.
Se till att du har en balanserad datauppsättning genom att redovisa format, dokumenttyper och struktur.
Byggläge
Åtgärden build custom model
lägger till stöd för mallen och anpassade neurala modeller. Tidigare versioner av REST-API:et och klientbiblioteken har endast stöd för ett enda byggläge som nu kallas mallläge .
Mallmodeller accepterar endast dokument som har samma grundläggande sidstruktur – ett enhetligt visuellt utseende – eller samma relativa placering av element i dokumentet.
Neurala modeller stöder dokument som har samma information, men olika sidstrukturer. Exempel på dessa dokument är USA W2-formulär, som delar samma information, men varierar i utseende mellan företag.
Den här tabellen innehåller länkar till SDK-referenser för programmeringsspråket build mode och kodexempel på GitHub:
Programmeringsspråk | SDK-referens | Kodexempel |
---|---|---|
C#/.NET | DocumentBuildMode Struct | Sample_BuildCustomModelAsync.cs |
Java | DocumentBuildMode-klass | BuildModel.java |
JavaScript | DocumentBuildMode-typ | buildModel.js |
Python | DocumentBuildMode Uppräkning | sample_build_model.py |
Jämföra modellfunktioner
I följande tabell jämförs anpassade mallar och anpassade neurala funktioner:
Funktion | Anpassad mall (formulär) | Anpassad neural (dokument) |
---|---|---|
Dokumentstruktur | Mall, formulär och strukturerad | Strukturerad, halvstrukturerad och ostrukturerad |
Träningstid | 1 till 5 minuter | 20 minuter till 1 timme |
Extrahering av data | Nyckel/värde-par, tabeller, markeringsmarkeringar, koordinater och signaturer | Nyckel/värde-par, markeringsmarkeringar och tabeller |
Överlappande fält | Stöds inte | Stöds |
Dokumentvariationer | Kräver en modell per varje variant | Använder en enskild modell för alla varianter |
Språkstöd | Anpassad mall för språkstöd | Språkstöd för anpassade neurala |
Anpassad klassificeringsmodell
Dokumentklassificering är ett nytt scenario som stöds av Document Intelligence med API:et 2023-07-31
(v3.1 GA). API:et för dokumentklassificerare stöder klassificerings- och delningsscenarier. Träna en klassificeringsmodell för att identifiera de olika typer av dokument som programmet stöder. Indatafilen för klassificeringsmodellen kan innehålla flera dokument och klassificera varje dokument inom ett associerat sidintervall. Mer information finns i anpassade klassificeringsmodeller .
Kommentar
Dokumentklassificeringsmodellen v4.0 2024-11-30 (GA)
stöder Office-dokumenttyper för klassificering. Den här API-versionen introducerar också inkrementell träning för klassificeringsmodellen.
Anpassade modellverktyg
Dokumentinformation v3.1 och senare modeller stöder följande verktyg, program och bibliotek, program och bibliotek:
Funktion | Resurser | Model ID |
---|---|---|
Anpassad modell | • Document Intelligence Studio • REST API • C# SDK • Python SDK |
custom-model-id |
Livscykel för anpassad modell
Livscykeln för en anpassad modell beror på vilken API-version som används för att träna den. Om API-versionen är en allmän tillgänglighetsversion (GA) har den anpassade modellen samma livscykel som den versionen. Den anpassade modellen är inte tillgänglig för slutsatsdragning när API-versionen är inaktuell. Om API-versionen är en förhandsversion har den anpassade modellen samma livscykel som förhandsversionen av API:et.
Document Intelligence v2.1 stöder följande verktyg, program och bibliotek:
Kommentar
Anpassade modelltyper anpassade neurala och anpassade mallar är tillgängliga med Document Intelligence version v3.1 och v3.0 API:er.
Funktion | Resurser |
---|---|
Anpassad modell | • Etikettverktyg för dokumentinformation• REST API • Klientbiblioteks-SDK • Docker-container för dokumentinformation |
Skapa en anpassad modell
Extrahera data från specifika eller unika dokument med hjälp av anpassade modeller. Du behöver följande resurser:
En Azure-prenumeration Du kan skapa en kostnadsfritt.
En instans av dokumentinformation i Azure Portal. Du kan använda den kostnadsfria prisnivån (
F0
) för att prova tjänsten. När resursen har distribuerats väljer du Gå till resurs för att hämta din nyckel och slutpunkt.
Exempel på märkningsverktyg
Dricks
- För en förbättrad upplevelse och avancerad modellkvalitet kan du prova Document Intelligence v3.0 Studio.
- v3.0 Studio stöder alla modeller som tränats med v2.1-märkta data.
- Du kan läsa api-migreringsguiden för detaljerad information om migrering från v2.1 till v3.0.
- Se vårt REST API eller C#, Java, JavaScript eller Python SDK .. /snabbstarter för att komma igång med v3.0-versionen.
Exempeletikettverktyget för dokumentinformation är ett öppen källkod verktyg som gör att du kan testa de senaste funktionerna i funktionerna för dokumentinformation och optisk teckenigenkänning (OCR).
Prova snabbstarten för exempeletiketteringsverktyget för att komma igång med att skapa och använda en anpassad modell.
Document Intelligence Studio
Kommentar
Document Intelligence Studio är tillgängligt med v3.1- och v3.0-API:er.
På startsidan för Document Intelligence Studio väljer du Anpassade extraheringsmodeller.
Under Mina projekt väljer du Skapa ett projekt.
Fyll i fälten för projektinformation.
Konfigurera tjänstresursen genom att lägga till lagringskontot och blobcontainern för att ansluta din träningsdatakälla.
Granska och skapa projektet.
Lägg till exempeldokumenten för att märka, skapa och testa din anpassade modell.
En detaljerad genomgång för att skapa din första anpassade extraheringsmodell finns i Skapa en anpassad extraheringsmodell.
Sammanfattning av extrahering av anpassad modell
I den här tabellen jämförs de dataextraheringsområden som stöds:
Modell | Formulärfält | Markeringsmarkeringar | Strukturerade fält (tabeller) | Signatur | Regionetiketter | Överlappande fält |
---|---|---|---|---|---|---|
Anpassad mall | ✔ | ✔ | ✔ | ✔ | ✔ | n/a |
Anpassad neural | ✔ | ✔ | ✔ | ✔ | * | ✔ |
Tabellsymboler:
✔ — Stöds
**n/a– För närvarande inte tillgänglig;
*-Beter sig olika beroende på modell. Med mallmodeller genereras syntetiska data vid träningstillfället. Med neurala modeller väljs utgående text som identifieras i regionen.
Dricks
När du väljer mellan de två modelltyperna börjar du med en anpassad neural modell om den uppfyller dina funktionella behov. Mer information om anpassade neurala modeller finns i Anpassade neurala modeller.
Utvecklingsalternativ för anpassad modell
I följande tabell beskrivs de funktioner som är tillgängliga med de associerade verktygen och klientbiblioteken. Som bästa praxis bör du se till att du använder de kompatibla verktyg som anges här.
Dokumenttyp | REST API | SDK | Etikett- och testmodeller |
---|---|---|---|
Anpassad mall v 4.0 v3.1 v3.0 | Dokumentinformation 3.1 | SDK för dokumentinformation | Document Intelligence Studio |
Anpassad neural v4.0 v3.1 v3.0 | Dokumentinformation 3.1 | SDK för dokumentinformation | Document Intelligence Studio |
Anpassat formulär v2.1 | DOKUMENTINFORMATION 2.1 GA API | SDK för dokumentinformation | Exempeletikettverktyg |
Kommentar
Anpassade mallmodeller som tränats med 3.0-API:et har några förbättringar jämfört med 2.1-API:et som härrör från förbättringar av OCR-motorn. Datauppsättningar som används för att träna en anpassad mallmodell med 2.1-API:et kan fortfarande användas för att träna en ny modell med hjälp av 3.0-API:et.
För bästa resultat anger du ett tydligt foto eller en genomsökning av hög kvalitet per dokument.
Filformat som stöds är JPEG/JPG, PNG, BMP, TIFF och PDF (textbäddas in eller genomsöks). PDF-filer med inbäddad text är bäst för att undvika fel vid extrahering och placering av tecken.
För PDF- och TIFF-filer kan upp till 2 000 sidor bearbetas. Med en prenumeration på den kostnadsfria nivån bearbetas endast de två första sidorna.
Filstorleken måste vara mindre än 500 MB för den betalda nivån (S0) och 4 MB för den kostnadsfria nivån (F0).
Bilddimensionerna måste vara mellan 50 × 50 bildpunkter och 10 000 × 10 000 bildpunkter.
PDF-måtten är upp till 17 x 17 tum, motsvarande pappersstorleken Juridisk eller A3 eller mindre.
Den totala storleken på träningsdata är 500 sidor eller mindre.
Om dina PDF-filer är låsta med lösenord måste du ta bort låset innan du skickar filerna.
Dricks
Träningsdata:
- Använd om möjligt textbaserade PDF-dokument i stället för bildbaserade dokument. Skannade PDF-filer hanteras som bilder.
- Ange endast en enskild instans av formuläret per dokument.
- För ifyllda formulär använder du exempel som har alla fält ifyllda.
- Använd formulär med olika värden i varje fält.
- Om dina formulärbilder är av lägre kvalitet använder du en större datauppsättning. Använd till exempel 10 till 15 bilder.
Språk och nationella inställningar som stöds
Se sidan Språkstöd – anpassade modeller för en fullständig lista över språk som stöds.
Nästa steg
Prova att bearbeta dina egna formulär och dokument med verktyget Exempeletiketter för dokumentinformation.
Slutför en snabbstart för dokumentinformation och kom igång med att skapa en app för dokumentbearbetning på valfritt utvecklingsspråk.
Prova att bearbeta dina egna formulär och dokument med Document Intelligence Studio.
Slutför en snabbstart för dokumentinformation och kom igång med att skapa en app för dokumentbearbetning på valfritt utvecklingsspråk.