Anpassad klassificeringsmodell för Dokumentinformation
Det här innehållet gäller för: v4.0 (GA) | Föregående version: v3.1 (GA)
Det här innehållet gäller för: v3.1 (GA) | Senaste version: v4.0 (GA)
Viktigt!
- API:et
v4.0 2024-11-30 (GA)
, den anpassade klassificeringsmodellen delar inte dokument som standard under analysprocessen. - Du måste uttryckligen
splitMode
ange egenskapen till automatisk för att bevara beteendet från tidigare versioner. Standardvärdet försplitMode
ärnone
. - Om indatafilen innehåller flera dokument måste du aktivera delning genom att ange
splitMode
tillauto
.
Azure AI Document Intelligence är en molnbaserad Azure AI-tjänst som gör att du kan skapa intelligenta lösningar för dokumentbearbetning. API:er för dokumentinformation analyserar bilder, PDF-filer och andra dokumentfiler för att extrahera och identifiera olika innehåll, layout, format och semantiska element.
Anpassade klassificeringsmodeller är djupinlärningsmodelltyper som kombinerar layout- och språkfunktioner för att korrekt identifiera och identifiera dokument som du bearbetar i ditt program. Anpassade klassificeringsmodeller utför klassificering av en indatafil en sida i taget för att identifiera dokumenten i och kan även identifiera flera dokument eller flera instanser av ett enda dokument i en indatafil.
Modellfunktioner
Kommentar
- Anpassade klassificeringsmodeller v4.0 2024-11-30 (GA) stöder inkrementell träning. Du kan lägga till nya exempel i befintliga klasser eller lägga till nya klasser genom att referera till en befintlig klassificerare.
- Den anpassade klassificeringsmodellen v3.1 2023-07-31 (GA) stöder inte modellkopiering. Om du vill använda modellkopieringsfunktionen tränar du modellen med den senaste v4.0 GA-modellen.
Anpassade klassificeringsmodeller kan analysera ett dokument med en eller flera filer för att identifiera om någon av de tränade dokumenttyperna finns i en indatafil. Här är de scenarier som stöds för närvarande:
En enda fil som innehåller en dokumenttyp, till exempel ett låneformulär.
En enda fil som innehåller flera dokumenttyper. Till exempel ett låneprogrampaket som innehåller ett låneformulär, lönebesked och bankutdrag.
En enda fil som innehåller flera instanser av samma dokument. Till exempel en samling skannade fakturor.
✔️ Träning av five
en anpassad klassificerare kräver minst two
distinkta klasser och minst dokumentexempel per klass. Modellsvaret innehåller sidintervallen för var och en av de dokumentklasser som identifieras.
✔️ Det maximala tillåtna antalet klasser är 1,000
. Det maximala tillåtna antalet dokumentexempel per klass är 100
.
Modellen klassificerar varje sida i indatadokumentet, om det inte anges, till någon av klasserna i den märkta datauppsättningen. Du kan också ange sidnumren som ska analyseras i indatadokumentet. Om du vill ange tröskelvärdet för ditt program använder du konfidenspoängen från svaret.
Inkrementell träning
Med anpassade modeller måste du behålla åtkomsten till träningsdatauppsättningen för att uppdatera klassificeraren med nya exempel för en befintlig klass eller lägga till nya klasser. Klassificerarmodeller stöder nu inkrementell träning där du kan referera till en befintlig klassificerare och lägga till nya exempel för en befintlig klass eller lägga till nya klasser med exempel. Inkrementell träning möjliggör scenarier där datakvarhållning är en utmaning och klassificeraren måste uppdateras för att anpassas till föränderliga affärsbehov. Inkrementell träning stöds med modeller som tränats med API-version v4.0 2024-11-30 (GA)
.
Viktigt!
Inkrementell träning stöds endast med modeller som tränats med samma API-version. Om du försöker utöka en modell använder du DEN API-version som den ursprungliga modellen tränades med för att utöka modellen. Inkrementell träning stöds endast med API-version v4.0 2024-11-30 (GA) eller senare.
Inkrementell träning kräver att du anger det ursprungliga modell-ID:t baseClassifierId
som . Mer information om hur du använder inkrementell träning finns i inkrementell träning .
Stöd för Office-dokumenttyp
Nu kan du träna klassificerare att identifiera dokumenttyper i olika format, inklusive PDF, bilder, Word, PowerPoint och Excel. När du monterar din träningsdatauppsättning kan du lägga till dokument av någon av de typer som stöds. Klassificeraren kräver inte att du uttryckligen etiketterar specifika typer. Bästa praxis är att se till att din träningsdatauppsättning har minst ett urval av varje format för att förbättra modellens övergripande noggrannhet.
Jämför anpassad klassificering och sammansatta modeller
En anpassad klassificeringsmodell kan ersätta en sammansatt modell i vissa scenarier, men det finns några skillnader att vara medveten om:
Kapacitet | Anpassad klassificerarprocess | Process för sammansatt modell |
---|---|---|
Analysera ett enda dokument av okänd typ som tillhör en av de typer som tränats för bearbetning av extraheringsmodeller. | ● Kräver flera anrop. ● Anropa klassificeringsmodellen baserat på dokumentklassen. Det här steget möjliggör en konfidensbaserad kontroll innan du anropar analys av extraheringsmodellen. ● Anropa extraheringsmodellen. |
● Kräver ett enda anrop till en sammansatt modell som innehåller modellen som motsvarar indatadokumenttypen. |
Analysera ett enda dokument av okänd typ som tillhör flera typer som tränats för bearbetning av extraheringsmodeller. | ●Kräver flera anrop. ● Anropa klassificeraren som ignorerar dokument som inte matchar en angiven typ för extrahering. ● Anropa extraheringsmodellen. |
● Kräver ett enda anrop till en sammansatt modell. Tjänsten väljer en anpassad modell i den sammansatta modellen med den högsta matchningen. ● En sammansatt modell kan inte ignorera dokument. |
Analysera en fil som innehåller flera dokument av känd eller okänd typ som tillhör någon av de typer som tränats för bearbetning av extraheringsmodeller. | ● Kräver flera anrop. ● Anropa extraheringsmodellen för varje identifierat dokument i indatafilen. ● Anropa extraheringsmodellen. |
● Kräver ett enda anrop till en sammansatt modell. ● Den sammansatta modellen anropar komponentmodellen en gång på den första instansen av dokumentet. ●De återstående dokumenten ignoreras. |
Språkstöd
Klassificeringsmodeller stöder för närvarande endast engelskspråkiga dokument.
Klassificeringsmodeller kan nu tränas på dokument med olika språk. En fullständig lista finns i språk som stöds.
Indatakrav
Filformat som stöds:
Modell | Bild:jpeg/jpg , png , bmp , , , tiff heif |
Microsoft Office: Word (docx), Excel (xlxs), PowerPoint (pptx) |
|
---|---|---|---|
Lästa | ✔ | ✔ | ✔ |
Layout | ✔ | ✔ | ✔ |
Allmänt dokument | ✔ | ✔ | |
Inbyggda | ✔ | ✔ | |
Anpassad extrahering | ✔ | ✔ | |
Anpassad klassificering | ✔ | ✔ | ✔ (stöds inte i studion) |
Ge fem tydliga foton eller högkvalitativa genomsökningar per dokumenttyp för bästa resultat.
För PDF och TIFF kan upp till 2 000 sidor bearbetas (med en prenumeration på den kostnadsfria nivån bearbetas endast de två första sidorna).
Filstorleken för att analysera dokument är 500 MB för den betalda nivån (S0) och 4 MB för den kostnadsfria nivån (F0).
Bilddimensionerna måste vara mellan 50 x 50 bildpunkter och 10 000 px x 10 000 bildpunkter.
Om dina PDF-filer är låsta med lösenord måste du ta bort låset innan du skickar filerna.
Den minsta höjden på texten som ska extraheras är 12 bildpunkter för en bild på 1 024 x 768 bildpunkter. Den här dimensionen motsvarar ungefär
8
-punkttext vid 150 punkter per tum (DPI
).För anpassad modellträning är det maximala antalet sidor för träningsdata 500 för den anpassade mallmodellen och 50 000 för den anpassade neurala modellen.
För anpassad extraheringsmodellträning är den totala storleken på träningsdata 50 MB för mallmodellen och 1G-MB för den neurala modellen.
För anpassad klassificeringsmodellträning är den totala storleken på träningsdata 2 GB med högst 25 000 sidor.
Dokumentdelning
När du har fler än ett dokument i en fil kan klassificeraren identifiera de olika dokumenttyperna i indatafilen. Klassificerarens svar innehåller sidintervallen för var och en av de identifierade dokumenttyperna som finns i en fil. Det här svaret kan innehålla flera instanser av samma dokumenttyp.
Åtgärden analyze
innehåller nu en splitMode
egenskap som ger dig detaljerad kontroll över delningsbeteendet.
- Om du vill behandla hela indatafilen som ett enda dokument för klassificering anger du splitMode till
none
. När du gör det returnerar tjänsten bara en klass för hela indatafilen. - Om du vill klassificera varje sida i indatafilen anger du splitMode till
perPage
. Tjänsten försöker klassificera varje sida som ett enskilt dokument. - Ange splitMode till
auto
och tjänsten identifierar dokument och associerade sidintervall.
Bästa praxis
Anpassade klassificeringsmodeller kräver minst fem exempel per klass för träning. Om klasserna är liknande förbättras modellens noggrannhet genom att lägga till extra träningsexempel.
Klassificeraren försöker tilldela varje dokument till en av klasserna, om du förväntar dig att modellen ska se dokumenttyper som inte finns i de klasser som ingår i träningsdatauppsättningen bör du planera att ange ett tröskelvärde för klassificeringspoängen eller lägga till några representativa exempel på dokumenttyperna i en "other"
klass. Genom att lägga till en "other"
klass ser du till att dokument som inte behövs inte påverkar klassificerarens kvalitet.
Träna en modell
Anpassade klassificeringsmodeller stöds av API:et v4.0 2024-11-30 (GA). Document Intelligence Studio tillhandahåller ett användargränssnitt utan kod för att interaktivt träna en anpassad klassificerare. Följ guiden för att komma igång.
Om du använder REST-API:et kan du använda azureBlobSource
egenskapen för begäran för att träna en klassificeringsmodell om du organiserar dina dokument efter mappar.
https://{endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview
{
"classifierId": "demo2.1",
"description": "",
"docTypes": {
"car-maint": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "sample1/car-maint/"
}
},
"cc-auth": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "sample1/cc-auth/"
}
},
"deed-of-trust": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "sample1/deed-of-trust/"
}
}
}
}
https://{endpoint}/formrecognizer/documentClassifiers:build?api-version=2023-07-31
{
"classifierId": "demo2.1",
"description": "",
"docTypes": {
"car-maint": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "{path to dataset root}/car-maint/"
}
},
"cc-auth": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "{path to dataset root}/cc-auth/"
}
},
"deed-of-trust": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "{path to dataset root}/deed-of-trust/"
}
}
}
}
Om du har en platt lista med filer eller bara planerar att använda några få utvalda filer i varje mapp för att träna modellen kan du använda azureBlobFileListSource
egenskapen för att träna modellen. Det här steget kräver ett file list
I JSON Lines-format . För varje klass lägger du till en ny fil med en lista över filer som ska skickas för träning.
{
"classifierId": "demo2",
"description": "",
"docTypes": {
"car-maint": {
"azureBlobFileListSource": {
"containerUrl": "SAS URL to container",
"fileList": "{path to dataset root}/car-maint.jsonl"
}
},
"cc-auth": {
"azureBlobFileListSource": {
"containerUrl": "SAS URL to container",
"fileList": "{path to dataset root}/cc-auth.jsonl"
}
},
"deed-of-trust": {
"azureBlobFileListSource": {
"containerUrl": "SAS URL to container",
"fileList": "{path to dataset root}/deed-of-trust.jsonl"
}
}
}
}
Till exempel innehåller fillistan car-maint.jsonl
följande filer.
{"file":"classifier/car-maint/Commercial Motor Vehicle - Adatum.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Fincher.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Lamna.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Liberty.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Trey.pdf"}
Skriva över en modell
Kommentar
Den anpassade klassificeringsmodellen v4.0 2024-11-30 (GA) stöder överskrivning av en modell på plats.
Nu kan du uppdatera den anpassade klassificeringen på plats. Om du skriver över modellen direkt förlorar du möjligheten att jämföra modellkvaliteten innan du bestämmer dig för att ersätta den befintliga modellen. Modellöverskrivning tillåts när egenskapen uttryckligen allowOverwrite
anges i begärandetexten. Det går inte att återställa den överskrivna ursprungliga modellen när den här åtgärden har utförts.
{
"classifierId": "existingClassifierName",
"allowOverwrite": true, // Default=false
...
}
Kopiera en modell
Kommentar
Den anpassade modellen för klassificering v4.0 2024-11-30 (GA) stöder kopiering av en modell till och från någon av följande regioner:
- USA, östra
- USA, västra 2
- Europa, västra
Använd REST API eller Document Intelligence Studio för att kopiera en modell till en annan region.
Generera begäran om kopieringsauktorisering
Följande HTTP-begäran hämtar kopieringsauktorisering från målresursen. Du måste ange slutpunkten och nyckeln för målresursen som rubriker.
POST https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers:authorizeCopy?api-version=2024-11-30
Ocp-Apim-Subscription-Key: {<your-key>}
Begärandetext
{
"classifierId": "targetClassifier",
"description": "Target classifier description"
}
Du får en 200
svarskod med svarstexten som innehåller den JSON-nyttolast som krävs för att initiera kopian.
{
"targetResourceId": "/subscriptions/targetSub/resourceGroups/targetRG/providers/Microsoft.CognitiveServices/accounts/targetService",
"targetResourceRegion": "targetResourceRegion",
"targetClassifierId": "targetClassifier",
"targetClassifierLocation": "https://targetEndpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/targetClassifier",
"accessToken": "accessToken",
"expirationDateTime": "timestamp"
}
Starta kopieringsåtgärden
Följande HTTP-begäran startar kopieringsåtgärden på källresursen. Du måste ange slutpunkten och nyckeln för källresursen som URL och rubrik. Observera att begärande-URL:en innehåller klassificerarens ID för den källklassificerare som du vill kopiera.
POST {endpoint}/documentintelligence/documentClassifiers/{classifierId}:copyTo?api-version=2024-11-30
Ocp-Apim-Subscription-Key: {<your-key>}
Brödtexten i din begäran är svaret från föregående steg.
{
"targetResourceId": "/subscriptions/targetSub/resourceGroups/targetRG/providers/Microsoft.CognitiveServices/accounts/targetService",
"targetResourceRegion": "targetResourceRegion",
"targetClassifierId": "targetClassifier",
"targetClassifierLocation": "https://targetEndpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/targetClassifier",
"accessToken": "accessToken",
"expirationDateTime": "timestamp"
}
Modellsvar
Analysera en indatafil med dokumentklassificeringsmodellen.
https://{endpoint}/documentintelligence/documentClassifiers/{classifier}:analyze?api-version=2024-02-29-preview
Med API:et v4.0 2024-11-30 (GA)
kan du ange sidor som ska analyseras från indatadokumentet med hjälp av pages
frågeparametern i begäran.
https://{service-endpoint}/formrecognizer/documentClassifiers/{classifier}:analyze?api-version=2023-07-31
Svaret innehåller identifierade dokument med tillhörande sidintervall i dokumentavsnittet i svaret.
{
...
"documents": [
{
"docType": "formA",
"boundingRegions": [
{ "pageNumber": 1, "polygon": [...] },
{ "pageNumber": 2, "polygon": [...] }
],
"confidence": 0.97,
"spans": []
},
{
"docType": "formB",
"boundingRegions": [
{ "pageNumber": 3, "polygon": [...] }
],
"confidence": 0.97,
"spans": []
}, ...
]
}
Nästa steg
Lär dig hur du skapar anpassade klassificeringsmodeller: