Modello neurale personalizzato di Document Intelligence
Questo contenuto si applica a: v4.0 (GA) | Versioni precedenti: v3.1 (GA) v3.0 (GA) ::: moniker-end
Questo contenuto si applica a: v3.1 (GA) | Versione più recente: v4.0 (GA) | Versioni precedenti: v3.0
I modelli di documento neurali personalizzati, o modelli neurali, sono un tipo di modello di Deep Learning che combina le funzionalità di layout e lingua per estrarre in modo accurato i campi etichettati dai documenti. Il training del modello neurale personalizzato di base viene eseguito su vari tipi di documento che lo rendono adatto per l'estrazione di campi da documenti strutturati e semistrutturati. I modelli neurali personalizzati sono disponibili nei modelli v3.0 e versioni successive Con V4.0, il modello neurale personalizzato supporta ora il rilevamento delle firme. La tabella seguente elenca i tipi di documento comuni per ogni categoria:
Documenti | Esempi |
---|---|
dati strutturati | sondaggi, questionari |
dati semistrutturati | fatture, ordini d'acquisto |
I modelli neurali personalizzati condividono lo stesso formato di etichettatura e la stessa strategia dei modelli personalizzati. Attualmente i modelli neurali personalizzati supportano solo un sottoinsieme dei tipi di campo supportati dai modelli personalizzati.
Funzionalità dei modelli
Importante
Il modello neurale personalizzato v4.0 2024-11-30 (GA) supporta campi sovrapposti e attendibilità delle celle di tabella.
I modelli neurali personalizzati supportano attualmente coppie chiave-valore, segni di selezione e campi strutturati (tabelle).
Campi del modulo | Opzioni di selezione | Campi tabulari | Firma | Etichettatura di aree | Campi sovrapposti |
---|---|---|---|---|---|
Supportata | Supportato | Supportato | Supportata | Supportato 1 | Supportato 2 |
1 Le etichette di area nei modelli neurali personalizzati usano i risultati dell'API Layout per l'area specificata. Questa funzionalità è diversa dai modelli di modello in cui, se non è presente alcun valore, il testo viene generato in fase di training.
2 I campi sovrapposti sono supportati con l'API REST versione 2024-11-30 (GA). I campi sovrapposti presentano alcuni limiti. Per altre informazioni, vedere campi sovrapposti.
Modalità compilazione
L'operazione Build
supporta i modelli personalizzati modello e neurale. Le versioni precedenti dell'API REST e delle librerie client supportano solo una singola modalità di compilazione ora nota come modalità modello.
I modelli neurali supportano documenti con le stesse informazioni, ma con strutture di pagina diverse. Gli esempi di questi documenti includono moduli W2 degli Stati Uniti, che condividono le stesse informazioni, ma possono variare in aspetto tra le aziende. Per altre informazioni, vedere Modalità di compilazione di modelli personalizzati.
Campi sovrapposti
Il modello neurale personalizzato v4.0 2024-11-30 (GA) supporta campi sovrapposti:
Per usare i campi sovrapposti, il set di dati deve contenere almeno un campione con la sovrapposizione prevista. Per etichettare una sovrapposizione, usare l’etichettatura di aree per designare ogni intervallo di contenuto (con la sovrapposizione) per ogni campo. L'etichettatura di una sovrapposizione con la selezione dei campi (evidenziando un valore) ha esito negativo in Studio perché l'etichettatura dell'area è l'unico strumento di etichettatura supportato per indicare sovrapposizioni di campi. Il supporto per la sovrapposizione include:
- Sovrapposizione completa. Lo stesso set di token viene etichettato per due campi diversi.
- Sovrapposizione parziale. Alcuni token appartengono a entrambi i campi, ma esistono token che fanno solo parte di un campo o dell'altro.
I campi sovrapposti presentano alcuni limiti:
- Qualsiasi token o parola può essere etichettata solo in due campi.
- i campi sovrapposti in una tabella non possono estendersi sulle righe della tabella.
- I campi sovrapposti possono essere riconosciuti solo se almeno un esempio nel set di dati contiene etichette sovrapposte per tali campi.
Per usare campi sovrapposti, etichettare il set di dati con le sovrapposizioni ed eseguire il training del modello con la versione **2024-11-30 (GA)**
dell'API .
Campi tabulari
Il modello neurale personalizzato v4.0 2024-11-30 (GA) supporta campi tabulari (tabelle) per analizzare i dati di tabella, riga e cella con maggiore attendibilità:
- I modelli sottoposti a training con l'API versione 2022-06-30-preview o successiva accetteranno etichette di campi tabulari.
- I documenti analizzati con i modelli neurali personalizzati usando l'API versione 2022-06-30-preview o successiva produrranno campi tabulari aggregati tra le tabelle.
- I risultati sono disponibili nella matrice
documents
dell'oggettoanalyzeResult
restituita dopo un'operazione di analisi.
I campi tabulari supportano tabelle tra pagine per impostazione predefinita:
- Per etichettare una tabella che si estende su più pagine, etichettare ogni riga tra le diverse pagine di una singola tabella.
- Come procedura consigliata, assicurarsi che il set di dati contenga alcuni esempi delle varianti previste. Ad esempio, includi esempi in cui l'intera tabella si trova su una singola pagina e in cui le tabelle si estendono su due o più pagine.
I campi tabulari sono utili anche quando si estraggono informazioni ripetute all'interno di un documento non riconosciuto come tabella. Ad esempio, una sezione ripetuta di esperienze lavorative in un curriculum può essere etichettata ed estratta come campo tabulare.
I campi tabulari forniscono la confidenza tra tabelle, righe e celle con l'API **2024-11-30 (GA)**
:
Le tabelle fisse o dinamiche aggiungono il supporto dell’attendibilità per gli elementi seguenti:
- Attendibilità delle tabelle, misura dell'accuratezza dell'intera tabella.
- Attendibilità delle righe, misura di riconoscimento di una singola riga.
- Attendibilità delle celle, misura di riconoscimento di una singola cella.
L'approccio consigliato consiste nell'esaminare l'accuratezza in modo dall'alto verso il basso a partire prima dalla tabella, seguita dalla riga e quindi dalla cella. Vedere i punteggi di attendibilità e accuratezza per altre informazioni sull’attendibilità tra tabella, riga e cella.
Lingue e impostazioni locali supportate
Vedere Lingue supportate - modelli personalizzati per un elenco completo delle lingue supportate.
Aree geografiche supportate
A partire dal 18 ottobre 2022, il training del modello neurale personalizzato di Document Intelligence sarà disponibile solo nelle aree di Azure seguenti fino a ulteriore avviso:
- Australia orientale
- Brasile meridionale
- Canada centrale
- India centrale
- Stati Uniti centrali
- Asia orientale
- Stati Uniti orientali
- Stati Uniti Orientali 2
- Francia centrale
- Giappone orientale
- Stati Uniti centro-meridionali
- Asia sud-orientale
- Regno Unito meridionale
- Europa occidentale
- Stati Uniti occidentali 2
- US Gov Arizona
- US Gov Virginia
Suggerimento
Un modello sottoposto a training in una delle aree selezionate elencate può essere copiato in qualsiasi altra area e usato di conseguenza.
Usare l'API REST o Document Intelligence Studio per copiare un modello in un'altra area.
Suggerimento
Un modello sottoposto a training in una delle aree selezionate elencate può essere copiato in qualsiasi altra area e usato di conseguenza.
Usare l'API REST o Document Intelligence Studio per copiare un modello in un'altra area.
Suggerimento
Un modello sottoposto a training in una delle aree selezionate elencate può essere copiato in qualsiasi altra area e usato di conseguenza.
Usare l'API REST o Document Intelligence Studio per copiare un modello in un'altra area.
Requisiti di input
Per risultati ottimali, fornire una foto chiara o una scansione di alta qualità per ogni documento.
Formati di file supportati:
Modello PDF Immagine:
jpeg/jpg
,png
,bmp
,tiff
,heif
Microsoft Office:
Word (docx), Excel (xlsx), PowerPoint (pptx), e HTMLLettura ✔ ✔ ✔ Layout ✔ ✔ ✔ Documento generale ✔ ✔ Predefinito ✔ ✔ Neurale personalizzato ✔ ✔ ✱ i file di Microsoft Office non sono attualmente supportati per altri modelli o versioni.
Per i formati PDF e TIFF, possono essere elaborate fino a 2.000 pagine (con una sottoscrizione di livello gratuito vengono elaborate solo le prime due pagine).
La dimensione del file per l'analisi dei documenti è di 500 MB per il livello a pagamento (S0) e 4 MB per il livello gratuito (F0).
Per le immagini, le dimensioni devono essere comprese tra 50 x 50 pixel e 10.000 x 10.000 pixel.
Se i file PDF sono bloccati da password, è necessario rimuovere il blocco prima dell'invio.
L'altezza minima del testo da estrarre è di 12 pixel per un'immagine 1024 x 768 pixel. Queste dimensioni corrispondono approssimativamente a un testo con dimensioni di
8
punti e 150 punti per pollice.Per il training di modelli personalizzati, il numero massimo di pagine per i dati di training è 500 per il modello personalizzato e 50.000 per il modello neurale personalizzato.
Per il training di modelli di estrazione personalizzati, le dimensioni totali dei dati di training sono di 50 MB per il modello e 1G MB per il modello neurale.
Per il training del modello di classificazione personalizzato, le dimensioni totali dei dati di training sono
1GB
con un massimo di 10.000 pagine.
Procedure consigliate
I modelli neurali personalizzati differiscono dai modelli personalizzati in diversi modi. Il modello personalizzato si basa su un modello visivo coerente per estrarre i dati etichettati. I modelli neurali personalizzati supportano campi strutturati e semistrutturati. Per scegliere tra i tipi di modello, iniziare con un modello neurale e testarlo per determinare se supporta le proprie esigenze funzionali.
- Gestire le variazioni: i modelli neurali personalizzati possono generalizzare in formati diversi di un singolo tipo di documento. Come procedura consigliata, creare un singolo modello per tutte le varianti di un tipo di documento. Aggiungere almeno cinque esempi etichettati per ognuna delle diverse varianti al set di dati di training.
- Denominazione dei campi: quando si etichettano i dati, l'etichettatura del campo pertinente per il valore migliora l'accuratezza delle coppie chiave-valore estratte. Ad esempio, per un valore di campo contenente l'ID fornitore, è consigliabile denominare il campo supplier_id. I nomi dei campi devono essere definiti nella lingua del documento.
- Etichettatura di valori contigui: i token/parole di valori di un campo devono essere:
- In una sequenza consecutiva in ordine di lettura naturale senza interleaving con altri campi
- In un'area che non copre altri campi
- Dati rappresentativi: i valori nei casi di training devono essere diversi e rappresentativi. Ad esempio, se un campo è denominato date, i valori per questo campo devono essere di tipo data. Il valore sintetico come una stringa casuale può influire sulle prestazioni del modello.
Limitazioni correnti
- Il modello neurale personalizzato non riconosce i valori divisi tra i limiti della pagina.
- I tipi di campo non supportati dai modelli neurali personalizzati vengono ignorati se si utilizza un set di dati etichettato per i modelli personalizzati viene usato per eseguire il training di un modello neurale personalizzato.
- I modelli neurali personalizzati sono limitati a 20 operazioni di compilazione al mese. Aprire una richiesta di supporto se è necessario aumentare il limite. Per altre informazioni, vedere Quote e limiti del servizio Document Intelligence.
Training a model
I modelli neurali personalizzati sono disponibili nei modelli v3.0 e versioni successive.
Tipo documento | REST API | SDK | Etichettare e testare i modelli |
---|---|---|---|
Documento personalizzato | Informazioni sui documenti 3.1 | SDK di Informazioni sui documenti | Document Intelligence Studio |
L'operazione Build
per eseguire il training del modello supporta una nuova proprietà buildMode
. Per eseguire il training di un modello neurale personalizzato, impostare buildMode
su neural
.
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-11-30
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Fatturazione
Con la versione v4.0 2024-11-30 (GA)
è possibile eseguire il training del modello neurale personalizzato per durate superiori a quelle standard di 30 minuti. Le versioni precedenti sono limitate a 30 minuti per ogni istanza di training, con un totale di 20 istanze di training gratuite al mese. Con la versione v4.0 2024-11-30 (GA)
è possibile ricevere 10 ore di training del modello gratuito ed eseguire il training di un modello fino a 10 ore.
È possibile scegliere di dedicare tutte le 10 ore gratuite a una singola compilazione di modello con un set di dati di grandi dimensioni o di usarle in più compilazioni modificando il valore di durata massima per l'operazione di build
specificando maxTrainingHours
:
POST https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-11-30
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
...,
"maxTrainingHours": 10
}
Importante
- Se si desidera eseguire il training di modelli neurali aggiuntivi o di eseguire il training di modelli per un periodo di tempo più lungo che supera le 10 ore, si applicano gli addebiti per la fatturazione. Per informazioni dettagliate sugli addebiti per la fatturazione, vedere la pagina dei prezzi.
- È possibile acconsentire esplicitamente a questo servizio di formazione a pagamento impostando
maxTrainingHours
sul numero massimo di ore desiderato. Le chiamate API senza budget ma conmaxTrainingHours
impostato su oltre 10 ore avranno esito negativo. - Poiché ogni compilazione richiede tempo diverso a seconda del tipo e delle dimensioni del set di dati di training, la fatturazione viene calcolata per il tempo effettivo dedicato al training del modello neurale, con un minimo di 30 minuti per ogni processo di training.
- Questa funzionalità di training a pagamento consente di eseguire il training di set di dati di dimensioni maggiori per durate più lunghe con flessibilità nelle ore di training.
GET /documentModels/{myCustomModel}
{
"modelId": "myCustomModel",
"trainingHours": 0.23,
"docTypes": { ... },
...
}
Nota
Per le versioni di Informazioni sui documenti v3.1 (2023-07-31)
e v3.0 (2022-08-31)
, il training a pagamento del modello neurale personalizzato non è abilitato. Per le due versioni precedenti, si avranno un massimo di 30 minuti di durata del training per modello. Se si vuole eseguire il training di più di 20 istanze del modello, è possibile creare un ticket di supporto di Azure per aumentare il limite di training.
Fatturazione
Per le versioni di Informazioni sui documenti v3.1 (2023-07-31) and v3.0 (2022-08-31)
, si ricevono al massimo 30 minuti di durata del training per modello e un massimo di 20 training gratuiti al mese. Se si vuole eseguire il training di più di 20 istanze del modello, è possibile creare un ticket di supporto di Azure per aumentare il limite di training. Per i ticket di supporto di Azure immettere nel campo summary
: Increase Document Intelligence custom neural training (TPS) limit
.
Importante
- Quando si aumenta il limite di training, si noti che 2 sessioni di training del modello neurale personalizzato verranno considerate come 1 ora di training. Per altre informazioni sui prezzi per aumentare il numero di sessioni di training, vedere la pagina dei prezzi.
- Il ticket di supporto di Azure per l'aumento del limite di training può essere applicato solo a livello di risorsa, non a livello di sottoscrizione. È possibile richiedere un aumento del limite di training per una singola risorsa di Informazioni sui documenti specificando l'ID risorsa e l'area nel ticket di supporto.
Per eseguire il training dei modelli per durate più lunghe di 30 minuti, è supportato il training a pagamento con la versione v4.0 2024-11-30 (GA)
. Usando la versione più recente, è possibile eseguire il training del modello per una durata più lunga per elaborare documenti di dimensioni maggiori. Per altre informazioni sul training a pagamento, vedere Fatturazione v4.0.
Fatturazione
Per le versioni di Informazioni sui documenti v3.1 (2023-07-31) and v3.0 (2022-08-31)
, si ricevono al massimo 30 minuti di durata del training per modello e un massimo di 20 training gratuiti al mese. Se si vuole eseguire il training di più di 20 istanze del modello, è possibile creare un ticket di supporto di Azure per aumentare il limite di training. Per i ticket di supporto di Azure immettere nel campo summary
: Increase Document Intelligence custom neural training (TPS) limit
.
Importante
- Quando si aumenta il limite di training, si noti che 2 sessioni di training del modello neurale personalizzato verranno considerate come 1 ora di training. Per altre informazioni sui prezzi per aumentare il numero di sessioni di training, vedere la pagina dei prezzi.
- Il ticket di supporto di Azure per l'aumento del limite di training può essere applicato solo a livello di risorsa, non a livello di sottoscrizione. È possibile richiedere un aumento del limite di training per una singola risorsa di Informazioni sui documenti specificando l'ID risorsa e l'area nel ticket di supporto.
Se si desidera eseguire il training dei modelli per più di 30 minuti, è supportato il training a pagamento con la versione più recente, v4.0 (2024-11-30)
. Usando la versione più recente, è possibile eseguire il training del modello per una durata più lunga per elaborare documenti di dimensioni maggiori. Per altre informazioni sul training a pagamento, vedere Fatturazione v4.0.
Passaggi successivi
Informazioni su come creare e comporre modelli personalizzati: