Creare ed eseguire il training di un modello di classificazione personalizzato

Articolo
11/19/2024

Questo contenuto si applica a: v4.0 (GA) | Versioni precedenti: v3.1 (GA) v3.0 (GA)

I modelli di classificazione personalizzati possono classificare ogni pagina in un file di input per identificare uno o più documenti all'interno. I modelli di classificatore possono anche identificare più documenti o più istanze di un singolo documento nel file di input. I modelli personalizzati di Informazioni sui documenti richiedono solo cinque documenti di training per classe di documento per iniziare. Per iniziare a eseguire il training di un modello di classificazione personalizzato, sono necessari almeno cinque documenti per ogni classe e due classi di documenti.

Requisiti di input del modello di classificazione personalizzato

Assicurarsi che il set di dati di training segua i requisiti di input per Informazioni sui documenti.

Formati di file supportati:

Modello	PDF	Immagine: `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, `HEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Lettura	✔	✔	✔
Layout	✔	✔	✔
Documento generale	✔	✔
Predefinito	✔	✔
Estrazione personalizzata	✔	✔
Classificazione personalizzata	✔	✔	✔

Per risultati ottimali, fornire una foto chiara o una scansione di alta qualità per ogni documento.
Per i formati PDF e TIFF, possono essere elaborate fino a 2.000 pagine (con una sottoscrizione di livello gratuito vengono elaborate solo le prime due pagine).
Le dimensioni del file per l'analisi dei documenti sono di 500 MB per il livello a pagamento (S0) e 4 MB per il livello gratuito (F0).
Per le immagini, le dimensioni devono essere comprese tra 50 x 50 pixel e 10.000 x 10.000 pixel.
Se i file PDF sono bloccati da password, è necessario rimuovere il blocco prima dell'invio.
L'altezza minima del testo da estrarre è di 12 pixel per un'immagine 1024 x 768 pixel. Queste dimensioni corrispondono approssimativamente a un testo con dimensioni di 8 punti e 150 punti per pollice (DPI).
Per il training di modelli personalizzati, il numero massimo di pagine per i dati di training è 500 per il modello personalizzato e 50.000 per il modello neurale personalizzato.
- Per il training di modelli di estrazione personalizzati, le dimensioni totali dei dati di training sono di 50 MB per il modello e 1 GB per il modello neurale.
- Per il training del modello di classificazione personalizzato, le dimensioni totali dei dati di training sono 1 GB con un massimo di 10.000 pagine. Per 2024-11-30 (GA), le dimensioni totali dei dati di training sono 2 GB con un massimo di 10.000 pagine.

Suggerimenti per i dati di training

Seguire questi suggerimenti per ottimizzare ulteriormente il set di dati per il training:

Se possibile, utilizzare documenti PDF basati su testo anziché documenti basati su immagini. I PDF sottoposti a scansione vengono gestiti come immagini.
Se le immagini del modulo sono di qualità inferiore, utilizza un set di dati più grande (10-15 immagini, ad esempio).

Caricare i dati di training

Dopo aver raccolto il set di moduli o documenti per il training, è necessario caricarlo in un contenitore di archiviazione BLOB di Azure. Se non si sa come creare un account di archiviazione di Azure con un contenitore, seguire la guida di avvio rapido di Archiviazione di Azure per il portale di Azure. È possibile usare il piano tariffario gratuito (F0) per provare il servizio ed eseguire in un secondo momento l'aggiornamento a un livello a pagamento per la produzione. Se il set di dati è organizzato come cartelle, mantenere tale struttura in quanto lo studio può usare i nomi delle cartelle per le etichette per semplificare il processo di etichettatura.

Creare un progetto di classificazione nello Studio di Informazioni sui documenti

Lo Studio di Informazioni sui documenti fornisce e orchestra tutte le chiamate API necessarie per completare il set di dati ed eseguire il training del modello.

Per iniziare, passare a Studio di Informazioni sui documenti. La prima volta che si usa lo studio, è necessario inizializzare la sottoscrizione, il gruppo di risorse e la risorsa. Seguire quindi i prerequisiti per i progetti personalizzati per configurare lo studio per accedere al set di dati di training.
Nello studio selezionare il riquadro Modello di classificazione personalizzato nella sezione Modelli personalizzati della pagina e selezionare il pulsante Crea un progetto.
1. Nella finestra di dialogo Create Project specificare un nome per il progetto, facoltativamente una descrizione e selezionare Continua.
2. Scegliere quindi o selezionare Crea una risorsa di Intelligence documenti prima di continuare.
Selezionare quindi l'account di archiviazione usato per caricare il set di dati di training del modello personalizzato. Il Percorso cartella deve essere vuoto se i documenti di training si trovano nella radice del contenitore. Se i documenti si trovano in una sottocartella, immettere il percorso relativo dalla radice del contenitore nel campo Percorso cartella. Dopo aver configurato l'account di archiviazione, selezionare Continua.

Importante

È possibile organizzare il set di dati di training per cartelle, dove il nome della cartella è l'etichetta o la classe per i documenti, oppure creare un elenco semplice di documenti a cui è possibile assegnare un'etichetta nello studio.
Il training di un classificatore personalizzato richiede l'output del modello Layout per ogni documento nel set di dati. Eseguire il layout in tutti i documenti prima del processo di training del modello.
Esaminare infine le impostazioni del progetto e selezionare Crea progetto per creare un nuovo progetto. A questo punto, verrà visualizzata la finestra di etichettatura con l'elenco dei file nel set di dati.

Assegnare etichette ai dati

Nel progetto è sufficiente etichettare ogni documento con l'etichetta di classe appropriata.

Screenshot che mostra la selezione della risorsa di Informazioni sui documenti.

I file caricati nell'archivio vengono visualizzati nell'elenco dei file, pronti per essere etichettati. Sono disponibili alcune opzioni per etichettare il set di dati.

Se i documenti sono organizzati in cartelle, lo Studio chiede di usare i nomi delle cartelle come etichette. Questo passaggio semplifica l'assegnazione di etichette a un'unica selezione.
Per assegnare un'etichetta a un documento, selezionare per add label selection mark assegnare un'etichetta.
Usare il comando CTRL + selezione per selezionare più documenti a cui assegnare un'etichetta

A questo punto, tutti i documenti nel set di dati dovrebbero essere etichettati. Se si osserva l'account di archiviazione, sono presenti file .ocr.json che corrispondono a ogni documento nel set di dati di training e un nuovo file class-name.jsonl per ogni classe etichettata. Questo set di dati di training viene inviato per eseguire il training del modello.

Eseguire il training del modello

Dopo aver etichettato il set di dati, è possibile eseguire il training del modello. Selezionare il pulsante Training nell'angolo superiore destro.

Nella finestra di dialogo Esegui training del modello specificare un ID classificatore univoco e, facoltativamente, una descrizione. L'ID classificatore accetta un tipo di dati stringa.
Selezionare Training per avviare il processo di training.
Il training dei modelli di classificatore impiega pochi minuti.
Passare al menu modelli per visualizzare lo stato dell'operazione di training.

Test del modello

Al termine del training del modello, è possibile testare il modello selezionando il modello nella pagina dell'elenco dei modelli.

Selezionare il modello e selezionare il pulsante Test.
Per aggiungere un nuovo file, selezionarlo o rilasciarlo nel selettore di documenti.
Con un file selezionato, scegliere il pulsante Analizza per testare il modello.
I risultati del modello vengono visualizzati con l'elenco dei documenti identificati, un punteggio di attendibilità per ogni documento identificato e l'intervallo di pagine per ognuno dei documenti identificati.
Convalidare il modello valutando i risultati per ogni documento identificato.

Training di un classificatore personalizzato usando l'SDK o l'API

Studio orchestra le chiamate API per eseguire il training di un classificatore personalizzato. Il set di dati di training del classificatore richiede l'output dell'API di layout corrispondente alla versione dell'API per il modello di training. L'uso dei risultati del layout di una versione precedente dell'API può comportare un modello con un'accuratezza inferiore.

Studio genera i risultati del layout per il set di dati di training se il set di dati non contiene risultati di layout. Quando si usa l'API o l'SDK per eseguire il training di un classificatore, è necessario aggiungere i risultati del layout alle cartelle contenenti i singoli documenti. I risultati del layout devono essere nel formato della risposta dell'API quando si chiama direttamente il layout. Il modello a oggetti dell'SDK è diverso. Assicurarsi che siano i risultati dell'API layout results e non .SDK response

Risoluzione dei problemi

Il modello di classificazione richiede i risultati del modello di layout per ogni documento di training. Se non si forniscono i risultati del layout, Studio tenta di eseguire il modello di layout per ogni documento prima di eseguire il training del classificatore. Questo processo è limitato e può generare una risposta con un codice errore 429.

In Studio, prima del training con il modello di classificazione, eseguire il modello di layout in ogni documento e caricarlo nella stessa posizione del documento originale. Una volta aggiunti i risultati del layout, è possibile eseguire il training del modello di classificatore con i documenti.

Passaggi successivi

Informazioni sui tipi di modello personalizzati

Informazioni sull'accuratezza e l'attendibilità con i modelli personalizzati

Condividi tramite