Condividi tramite


Funzionalità dei componenti aggiuntivi di Document Intelligence

Questo contenuto si applica a:segno di spunta v4.0 (GA) | Versioni precedenti:blue-checkmark v3.1 (GA) :::moniker-end

Questo contenuto si applica a: segno di spunta v3.1 (GA) | Versione più recente: segno di spunta viola v4.0 (GA)

Nota

Le funzionalità dei componenti aggiuntivi sono disponibili all'interno di tutti i modelli, ad eccezione del modello del biglietto da visita.

Funzionalità

Document Intelligence supporta funzionalità di analisi più sofisticate e modulari. Usare le funzionalità del componente aggiuntivo per estendere i risultati per includere altre funzionalità estratte dai documenti. Alcune funzionalità del componente aggiuntivo comportano un costo aggiuntivo. Queste funzionalità facoltative possono essere abilitate e disabilitate a seconda dello scenario di estrazione dei documenti. Per abilitare una funzionalità, aggiungere il nome della funzionalità associata alla proprietà della stringa di query features. È possibile abilitare più funzionalità del componente aggiuntivo in una richiesta fornendo un elenco delimitato da virgole di funzionalità. Le funzionalità aggiuntive seguenti sono disponibili per 2023-07-31 (GA) e per le versioni successive.

Nota

  • Non tutte le funzionalità dei componenti aggiuntivi sono supportate da tutti i modelli. Per altre informazioni, vedere l’estrazione dei dati del modello.

  • Le funzionalità dei componenti aggiuntivi non sono attualmente supportate per i tipi di file di Microsoft Office.

Disponibilità della versione

Funzionalità del componente aggiuntivo Componente aggiuntivo/gratuito 2024-11-30 (GA) 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Estrazione delle proprietà dei caratteri Componente aggiuntivo ✔️ ✔️ n/d n/d
Estrazione di formule Componente aggiuntivo ✔️ ✔️ n/d n/d
Estrazione ad alta risoluzione Componente aggiuntivo ✔️ ✔️ n/d n/d
Estrazione del codice a barre Gratuito ✔️ ✔️ n/d n/d
Rilevamento lingua Gratuito ✔️ ✔️ n/d n/d
Coppie chiave-valore Gratuito ✔️ n/d n/d n/d
Campi di query Componente aggiuntivo* ✔️ n/d n/d n/d
Pdf searhable Componente aggiuntivo** ✔️ n/d n/d n/d

✱ Componente aggiuntivo - I campi di query vengono distribuiti in modo diverso rispetto alle altre funzionalità del componente aggiuntivo. Per informazioni dettagliate, vedere i prezzi.
** Componente aggiuntivo - Il pdf ricercabile è disponibile solo con il modello di lettura come funzionalità di componente aggiuntivo.

Formati di file supportati

  • PDF

  • Immagini: JPEG/JPG, PNG, BMP, TIFF, HEIF

.✱ i file di Microsoft Office non sono attualmente supportati.

Estrazione ad alta risoluzione

Il riconoscimento di testo piccolo in documenti di grandi dimensioni, ad esempio disegni di progettazione, è un'attività complessa. Spesso il testo è combinato con altri elementi grafici e ha tipi di carattere, dimensioni e orientamenti variabili. Inoltre, il testo può essere suddiviso in parti separate o collegate con altri simboli. Document Intelligence supporta ora l'estrazione di contenuto da questi tipi di documenti con la funzionalità ocr.highResolution. È possibile estrarre contenuto con una qualità migliore da documenti A1/A2/A3 abilitando questa funzionalità aggiuntiva.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Estrazione di formule

La funzionalità ocr.formula estrae tutte le formule identificate, ad esempio equazioni matematiche, nella raccolta formulas come oggetto di primo livello in content. All'interno di content, le formule rilevate vengono rappresentate come :formula:. Ogni voce di questa raccolta rappresenta una formula che include il tipo di formula, come inline o display, e la relativa rappresentazione LaTeX come value insieme alle coordinate polygon. Inizialmente, le formule vengono visualizzate alla fine di ogni pagina.

Nota

Il punteggio confidence è hardcoded.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Estrazione delle proprietà dei tipi di carattere

La funzionalità ocr.font estrae tutte le proprietà del tipo di carattere del testo estratto nella raccolta styles come oggetto di primo livello in content. Ogni oggetto stile specifica una singola proprietà del tipo di carattere, l'intervallo di testo a cui si applica e il punteggio di attendibilità corrispondente. La proprietà style esistente viene estesa con più proprietà dei tipi di carattere, ad esempio similarFontFamily per il tipo di carattere del testo, fontStyle per stili come corsivo e normale, fontWeight per il grassetto o normale, color per il colore del testo e backgroundColor per il colore del riquadro delimitatore del testo.

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Estrazione delle proprietà del codice a barre

La funzionalità ocr.barcode estrae tutti i codici a barre identificati di testo nella raccolta barcodes come oggetto di primo livello in content. All'interno di content i codici a barre rilevati vengono rappresentati come :barcode:. Ogni voce di questa raccolta rappresenta un codice a barre e include il tipo di codice a barre come kind e il contenuto di codice a barre incorporato come value insieme alle coordinate polygon. Inizialmente, i codici a barre vengono visualizzati alla fine di ogni pagina. Il confidence è hardcoded per come 1.

Tipi di codice a barre supportati

Tipo di codice a barre Esempio
QR Code Screenshot del codice a matrice.
Code 39 Screenshot del codice 39.
Code 93 Screenshot del codice 93.
Code 128 Screenshot del codice 128.
UPC (UPC-A & UPC-E) Screenshot dell'UPC.
PDF417 Screenshot di PDF417.
EAN-8 Screenshot del codice a barre European Article Number 8.
EAN-13 Screenshot del codice a barre European Article Number 13.
Codabar Screenshot della Codabar.
Databar Screenshot della barra dei dati.
Databar Esteso Screenshot della barra dei dati espansa.
ITF Screenshot del codice a barre interleaved two-of-five (ITF).
Data Matrix Screenshot della matrice di dati.
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Rilevamento lingua

L'aggiunta della funzionalità di languages alla richiesta di analyzeResult consente di fare una stima della lingua primaria rilevata per ogni riga di testo insieme al confidence nella raccolta languages in analyzeResult.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

PDF ricercabile

La funzionalità PDF ricercabile consente di convertire un PDF analogico, ad esempio file PDF a immagini digitalizzate, in un PDF con testo incorporato. Il testo incorporato consente la ricerca di testo avanzato all'interno del contenuto estratto del PDF sovrapponendo le entità di testo rilevate sopra i file di immagine.

Importante

  • Attualmente, la funzionalità PDF ricercabile è supportata solo dal modello OCR di lettura prebuilt-read. Quando si usa questa funzionalità, specificare come modelId prebuilt-read.
  • Il PDF ricercabile è incluso nel modello 2024-11-30 (GA) prebuilt-read senza costi di utilizzo per l'utilizzo generale dei PDF.

Usare un PDF ricercabile

Per usare il PDF ricercabile, effettuare una richiesta POST usando l'operazione Analyze e specificare il formato di output come pdf:


POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202

Una volta completata l'operazione Analyze, effettuare una richiesta GET per recuperare i risultati dell'operazione Analyze.

Al termine, il PDF può essere recuperato e scaricato come application/pdf. Questa operazione consente il download diretto della forma di testo incorporata del PDF anziché del codice JSON con codifica Base64.


// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}

// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf

Coppie chiave-valore

Nelle versioni precedenti dell'API, il prebuilt-document modello ha estratto coppie chiave-valore da moduli e documenti. Con l'aggiunta della funzionalità di keyValuePairs al layout predefinito, il modello di layout produce ora gli stessi risultati.

Le coppie chiave-valore sono intervalli specifici all'interno del documento che identificano un'etichetta o una chiave e la risposta o il valore associato. In un modulo strutturato, queste coppie possono essere l'etichetta e il valore immessi dall'utente per tale campo. In un documento non strutturato, possono essere la data di esecuzione di un contratto o possono essere basate sul testo di un paragrafo. Il modello di intelligenza artificiale viene sottoposto a training per estrarre chiavi e valori identificabili in base a un'ampia gamma di tipi, formati e strutture di documenti.

Le chiavi possono esistere anche in isolamento quando il modello rileva che esiste una chiave senza alcun valore associato o quando vengono elaborati campi facoltativi. Ad esempio, un campo del secondo nome può essere lasciato vuoto in un modulo in alcuni casi. Le coppie chiave-valore sono intervalli di testo contenuti nel documento. Per i documenti in cui lo stesso valore viene descritto in modi diversi, ad esempio cliente/utente, la chiave associata è cliente o utente (in base al contesto).

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Campi di query

I campi di query sono una funzionalità del componente aggiuntivo per estendere lo schema estratto da qualsiasi modello predefinito o definire un nome di chiave specifico quando il nome della chiave è variabile. Per usare i campi di query, impostare le funzionalità su queryFields e fornire un elenco delimitato da virgole di nomi di campo nella proprietà queryFields.

  • Document Intelligence supporta ora le estrazioni di campi di query. Con l'estrazione dei campi di query, è possibile aggiungere campi al processo di estrazione usando una richiesta di query senza la necessità di aggiungere training.

  • Usare i campi di query quando è necessario estendere lo schema di un modello predefinito o personalizzato oppure è necessario estrarre alcuni campi con l'output del layout.

  • I campi di query sono una funzionalità di componente aggiuntivo Premium. Per ottenere risultati ottimali, definire i campi da estrarre usando le lettere maiuscole o le lettere pascal per i nomi di campo composti da più parole.

  • I campi di query supportano un massimo di 20 campi per richiesta. Se il documento contiene un valore per il campo, vengono restituiti il campo e il valore.

  • In questa versione è disponibile una nuova implementazione della funzionalità dei campi di query con prezzi inferiori rispetto all'implementazione precedente e dovrebbe essere convalidata.

Nota

L'estrazione dei campi di query di Document Intelligence Studio è attualmente disponibile con i modelli 2024-11-30 (GA) API with the exception of the di layout e predefiniti delle imposte degli Stati Uniti (W2, 1098 e 1099s).

Estrazione di campi di query

Specificare i campi da estrarre e Document Intelligence analizzerà il documento di conseguenza. Ecco un esempio:

  • Se si elabora un contratto in Document Intelligence Studio, usare la versione 2024-11-30 (GA):

    Screenshot del pulsante dei campi di query in Document Intelligence Studio.

  • È possibile passare un elenco di etichette di campo come Party1, Party2, TermsOfUse, PaymentTerms, PaymentDate e TermEndDate come parte della richiesta di analyze document.

    Screenshot della finestra di selezione dei campi di query in Document Intelligence Studio.

  • Document Intelligence è in grado di analizzare ed estrarre i dati dei campi e restituire i valori in un output JSON strutturato.

  • Oltre ai campi di query, la risposta include testo, tabelle, segni di selezione e altri dati pertinenti.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Passaggi successivi

Altre informazioni: Leggi modelloModello di Layout

Esempi di SDK: python