Condividi tramite


Procedure consigliate: generazione di set di dati etichettati

Questo contenuto si applica a:segno di spunta v4.0 (GA) | Versioni precedenti: blue-checkmark v3.1 (GA) v3.0 (GA) blue-checkmark

Per eseguire il training di modelli personalizzati (modello e neurale), è necessario un set di dati etichettati di almeno cinque documenti. La qualità del set di dati etichettati influisce sull'accuratezza del modello sottoposto a training. Questa guida fornisce altre informazioni sulla generazione di un modello con accuratezza elevata assemblando un set di dati diversificato e propone le procedure consigliate per l'etichettatura dei documenti.

Informazioni sui componenti di un set di dati etichettati

Un set di dati etichettati è costituito da diversi file:

  • Specificare un set di documenti di esempio (in genere PDF o immagini). Per eseguire il training di un modello sono necessari almeno cinque documenti.

  • Inoltre, il processo di etichettatura genera i file seguenti:

    • Quando viene aggiunto il primo campo, viene creato un file fields.json. Esiste un file fields.json per l'intero set di dati di training; l'elenco di campi contiene il nome del campo e i sottocampi e i tipi associati.

    • Studio esegue ognuno dei documenti tramite l'API Layout. La risposta di layout per ogni file di esempio nel set di dati viene aggiunta come {file}.ocr.json. La risposta di layout viene usata per generare le etichette dei campi quando viene etichettato un intervallo di testo specifico.

    • Quando un campo viene etichettato in un documento, viene creato un file {file}.labels.json. Il file di etichette contiene gli intervalli di testo e i poligoni associati dell'output del layout per ogni intervallo di testo aggiunto dall'utente come valore per un campo specifico.

Video: Suggerimenti per le etichette personalizzate

  • Il video seguente è il primo di due presentazioni destinate a facilitare la creazione di modelli personalizzati con una maggiore accuratezza (la seconda presentazione illustra le procedure consigliate per l'etichettatura di documenti).

  • Viene illustrato come creare un set di dati bilanciato e come selezionare i documenti corretti da etichettare. Questo processo consente di impostare il percorso verso modelli di qualità superiore.

Creare un set di dati bilanciato

Prima di iniziare l'etichettatura, è consigliabile esaminare alcuni esempi diversi del documento per identificare quali usare nel set di dati etichettato. Un set di dati bilanciato rappresenta tutte le varianti tipiche previste per il documento. La creazione di un set di dati bilanciato genera un modello con la massima accuratezza possibile. Ecco alcuni esempi da considerare:

  • Formati dei documenti: se si prevede di analizzare documenti digitali e digitalizzati, aggiungere alcuni esempi di ogni tipo al set di dati di training.

  • Varianti (modello): è consigliabile dividere il set di dati in cartelle ed eseguire il training di un modello per ogni variante. Tutte le varianti che includono la struttura o il layout devono essere divise in modelli diversi. È quindi possibile comporre i singoli modelli in un singolo modello composto.

  • Varianti (modelli neurali): se il set di dati include un set gestibile di varianti, circa 15 o meno, creare un singolo set di dati con alcuni esempi di ognuna delle diverse varianti per eseguire il training di un singolo modello. Se il numero di varianti del modello è maggiore di 15, eseguire il training di più modelli e comporli insieme.

  • Tabelle: per i documenti contenenti tabelle con un numero variabile di righe, assicurarsi che il set di dati di training rappresenti anche i documenti con numeri di righe diversi.

  • Tabelle a più pagine: se le tabelle si estendono su più pagine, etichettare una singola tabella. Aggiungere documenti al set di dati di training con le varianti previste rappresentate, ossia documenti con la tabella in una singola pagina e documenti con la tabella che si estende su due o più pagine con tutte le righe etichettate.

  • Campi facoltativi: se il set di dati contiene documenti con campi facoltativi, verificare che il set di dati di training contenga alcuni documenti con le opzioni rappresentate.

Per iniziare, identificare i campi

Dedicare il tempo necessario per identificare ognuno dei campi che si prevede di etichettare nel set di dati. Prestare attenzione ai campi facoltativi. Definire i campi con le etichette che corrispondono meglio ai tipi supportati.

Per definire i campi, attenersi alle linee guida seguenti:

  • Per i modelli neurali personalizzati, usare nomi semanticamente pertinenti per i campi. Ad esempio, se il valore estratto è Effective Date, usare il nome effective_date o EffectiveDate e non un nome generico come date1.

  • Idealmente, denominare i campi con notazioni Pascal o Camel.

  • Se un valore fa parte di una struttura visivamente ripetuta ed è necessario solo un singolo valore, etichettarlo come tabella ed estrarre il valore richiesto durante la post-elaborazione.

  • Se i campi tabulari che si estendono su più pagine, definirli ed etichettarli come singola tabella.

Nota

I modelli neurali personalizzati condividono lo stesso formato di etichettatura e la stessa strategia dei modelli personalizzati. Attualmente i modelli neurali personalizzati supportano solo un sottoinsieme dei tipi di campo supportati dai modelli personalizzati.

Funzionalità dei modelli

I modelli neurali personalizzati supportano attualmente solo coppie chiave-valore, campi strutturati (tabelle) e segni di selezione.

Tipo di modello Campi del modulo Opzioni di selezione Campi tabulari Firma Paese Campi sovrapposti
Neurale personalizzato ✔️Supportato ✔️Supportato ✔️Supportato Non supportato ✔️Supportato1 ✔️Supportato2
Modello personalizzato ✔️Supportato ✔️Supportato ✔️Supportato ✔️Supportato ✔️Supportato Non supportato

1 L'implementazione dell'etichettatura di aree differisce tra modelli e modelli neurali. Per i modelli, il processo di training inserisce dati sintetici in fase di training se non viene trovato testo nell'area etichettata. Con i modelli neurali, non viene inserito alcun testo sintetico e il testo riconosciuto viene usato così come è.
2 I campi sovrapposti sono supportati a partire dalla versione v4.0 2024-11-30 (GA)dell'API . I campi sovrapposti presentano alcuni limiti. Per altre informazioni, vedere Campi sovrapposti.

Campi tabulari

I campi tabulari (tabelle) sono supportati con modelli neurali personalizzati con versione v4.0 2024-11-30 (GA)API . I modelli sottoposti a training con l'API versione 2022-06-30-preview o successiva accetteranno etichette di campi tabulari e i documenti analizzati con il modello con l'API versione 2022-06-30-preview o successiva produrranno campi tabulari nell'output all'interno della sezione documents del risultato nell'oggetto analyzeResult.

I campi tabulari supportano tabelle tra pagine per impostazione predefinita. Per etichettare una tabella che si estende su più pagine, etichettare ogni riga tra le diverse pagine della singola tabella. Come procedura consigliata, assicurarsi che il set di dati contenga alcuni esempi delle varianti previste. Ad esempio, includere sia gli esempi in cui un'intera tabella si trova in una singola pagina sia gli esempi di una tabella che si estende su due o più pagine.

I campi tabulari sono utili anche quando si estraggono informazioni ripetute all'interno di un documento non riconosciuto come tabella. Ad esempio, una sezione ripetuta di esperienze lavorative in un curriculum può essere etichettata ed estratta come campo tabulare.

Nota

Campo tabella dell'etichetta quando viene estratta come parte della sezione documents della risposta. La risposta contiene anche una sezione tables che contiene le tabelle estratte dal documento dal modello di layout. Se un campo è stato etichettato come tabella, cercare il campo nella sezione documenti della risposta.

Linee guida per l'etichettatura

  • È necessario etichettare i valori. Non includere il testo circostante. Ad esempio, quando si etichetta una casella di controllo, denominare il campo per indicare la selezione della casella di controllo, ad esempio selectionYes e selectionNo invece di etichettare il testo sì o no nel documento.

  • Non fornire valori di campo di interleaving. Il valore di parole e/o aree di un campo deve essere una sequenza consecutiva in ordine di lettura naturale.

  • Etichettatura coerente. Se un valore compare in più contesti nel documento, selezionare in modo coerente lo stesso contesto tra i documenti per etichettarlo.

  • Dati ripetuti visivamente. Le tabelle supportano gruppi di informazioni ripetuti visivamente, non solo tabelle esplicite. Le tabelle esplicite vengono identificate nella sezione tabelle dei documenti analizzati come parte dell'output del layout e non devono essere etichettate come tabelle. Etichettare un campo come tabella solo se le informazioni vengono ripetute visivamente e non sono identificate come tabella come parte della risposta di layout. Un esempio è la sezione dell'esperienza lavorativa ripetuta di un curriculum.

  • Etichettatura di aree (modello personalizzato). L'etichettatura di aree specifiche consente di definire un valore quando non ne esistono. Se il valore è facoltativo, assicurarsi di lasciare alcuni documenti di esempio con l'area non etichettata. Quando si etichettano le aree, non includere il testo circostante con l'etichetta.

  • Campi sovrapposti (neurale personalizzato). L'etichettatura del campo si sovrappone se si usa l'etichettatura dell'area. Assicurarsi di disporre almeno di un campione che descrive come i campi possono sovrapporsi nel set di dati di training.

Passaggi successivi