Modelo de leitura do Document Intelligence
Este conteúdo aplica-se a: v4.0 (GA) | Versões anteriores: v3.1 (GA) v3.0 (GA)
Este conteúdo aplica-se a: v4.0 (GA) | Versões anteriores: v3.1 (GA) v3.0 (GA)
Nota
Para extrair texto de imagens externas, como rótulos, sinais de rua e cartazes, use o recurso de leitura do Azure AI Image Analysis v4.0 otimizado para imagens gerais não documentais com uma API síncrona de desempenho aprimorado que facilita a incorporação de OCR em cenários de experiência do usuário em tempo real.
O modelo OCR (Document Intelligence Read Optical Character Recognition) é executado em uma resolução mais alta do que o Azure AI Vision Read e extrai texto impresso e manuscrito de documentos PDF e imagens digitalizadas. Ele também inclui suporte para extrair texto de documentos do Microsoft Word, Excel, PowerPoint e HTML. Ele deteta parágrafos, linhas de texto, palavras, locais e idiomas. O modelo Read é o mecanismo de OCR subjacente para outros modelos pré-construídos de Document Intelligence como Layout, Documento Geral, Fatura, Recibo, Documento de Identidade (ID), Cartão de seguro de saúde, W2, além de modelos personalizados.
O que é o Reconhecimento Ótico de Caracteres?
O Reconhecimento Ótico de Caracteres (OCR) para documentos é otimizado para documentos grandes com muito texto em vários formatos de arquivo e idiomas globais. Inclui funcionalidades como digitalização de imagens de documentos de alta resolução para um melhor manuseamento de texto mais pequeno e denso; deteção de parágrafos; e gestão de formulários preenchíveis. Os recursos de OCR também incluem cenários avançados, como caixas de caracteres únicos e extração precisa de campos-chave comumente encontrados em faturas, recibos e outros cenários pré-construídos.
Opções de desenvolvimento (v4)
O Document Intelligence v4.0: 2024-11-30 (GA) suporta as seguintes ferramentas, aplicações e bibliotecas:
Caraterística | Recursos | Model ID |
---|---|---|
Ler modelo OCR | • Document Intelligence Studio • API REST • C# SDK • Python SDK • Java SDK • JavaScript SDK |
leitura pré-embutida |
Requisitos de entrada (v4)
Formatos de ficheiro suportados:
Modelo PDF Imagem: JPEG/JPG
,PNG
,BMP
,TIFF
, ,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLLida ✔ ✔ ✔ Esquema ✔ ✔ ✔ Documento Geral ✔ ✔ Pré-criado ✔ ✔ Extração personalizada ✔ ✔ Classificação personalizada ✔ ✔ ✔ Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e
4
MB para a camada gratuita (F0).As dimensões da imagem devem estar entre 50 pixels x 50 pixels e 10.000 pixels x 10.000 pixels.
Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a cerca
8
de texto pontual a 150 pontos por polegada (DPI).Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e
1
GB para o modelo neural.Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é
1
GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treinamento é2
GB com um máximo de 10.000 páginas.
Introdução ao modelo Read (v4)
Tente extrair texto de formulários e documentos usando o Document Intelligence Studio. Você precisa dos seguintes ativos:
Uma assinatura do Azure — você pode criar uma gratuitamente.
Uma instância de Document Intelligence no portal do Azure. Você pode usar o nível de preço gratuito (
F0
) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter sua chave e o ponto de extremidade.
Nota
Atualmente, o Document Intelligence Studio não suporta os formatos de arquivo Microsoft Word, Excel, PowerPoint e HTML.
Exemplo de documento processado com o Document Intelligence Studio
Na home page do Document Intelligence Studio, selecione Ler.
Pode analisar o documento de exemplo ou carregar os seus próprios ficheiros.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar:
Idiomas e localidades suportados (v4)
Consulte a nossa página Suporte a idiomas — modelos de análise de documentos para obter uma lista completa dos idiomas suportados.
Extração de dados (v4)
Nota
Microsoft Word e arquivo HTML são suportados na v4.0. Em comparação com PDF e imagens, os recursos abaixo não são suportados:
- Não há ângulo, largura/altura e unidade com cada objeto de página.
- Para cada objeto detetado, não há polígono delimitador ou região delimitadora.
- O intervalo de páginas (
pages
) não é suportado como parâmetro. - Nenhum
lines
objeto.
PDFs pesquisáveis
O recurso de PDF pesquisável permite converter um PDF analógico, como arquivos PDF de imagem digitalizada, em um PDF com texto incorporado. O texto incorporado permite a pesquisa profunda de texto dentro do conteúdo extraído do PDF, sobrepondo as entidades de texto detetadas sobre os arquivos de imagem.
Importante
- Atualmente, o recurso PDF pesquisável é suportado apenas pelo modelo
prebuilt-read
Read OCR. Ao usar esse recurso, especifique omodelId
comoprebuilt-read
, pois outros tipos de modelo retornarão erro para esta versão de visualização. - O PDF pesquisável está incluído no modelo GA
prebuilt-read
2024-11-30 sem custo adicional para gerar uma saída PDF pesquisável.
Usar PDFs pesquisáveis
Para usar PDF pesquisável, faça uma POST
solicitação usando a Analyze
operação e especifique o formato de saída como pdf
:
POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202
Sondagem para conclusão da Analyze
operação. Quando a operação estiver concluída, emita uma GET
solicitação para recuperar o formato PDF dos resultados da Analyze
operação.
Após a conclusão bem-sucedida, o PDF pode ser recuperado e baixado como application/pdf
. Esta operação permite o download direto da forma de texto incorporado do PDF em vez do JSON codificado em Base64.
// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}
// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf
Parâmetro Pages
A coleção pages é uma lista de páginas dentro do documento. Cada página é representada sequencialmente dentro do documento e inclui o ângulo de orientação que indica se a página é girada e a largura e altura (dimensões em pixels). As unidades de página na saída do modelo são calculadas como mostrado:
Formato do ficheiro | Unidade de página computada | Total de páginas |
---|---|---|
Imagens (JPEG/JPG, PNG, BMP, HEIF) | Cada imagem = 1 unidade de página | Total de imagens |
Cada página no PDF = unidade de 1 página | Total de páginas no PDF | |
TIFF | Cada imagem no TIFF = 1 unidade de página | Total de imagens no TIFF |
Palavra (DOCX) | Até 3.000 caracteres = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas | Total de páginas de até 3.000 caracteres cada |
Excel (XLSX) | Cada planilha = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas | Total de planilhas |
PowerPoint (PPTX) | Cada slide = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas | Total de diapositivos |
HTML | Até 3.000 caracteres = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas | Total de páginas de até 3.000 caracteres cada |
# Analyze pages.
for page in result.pages:
print(f"----Analyzing document from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")
Usar páginas para extração de texto
Para documentos PDF grandes de várias páginas, use o pages
parâmetro query para indicar números de página específicos ou intervalos de páginas para extração de texto.
Extração de parágrafos
O modelo Read OCR no Document Intelligence extrai todos os blocos de texto identificados na paragraphs
coleção como um objeto de nível superior em analyzeResults
. Cada entrada nesta coleção representa um bloco de texto e inclui o texto extraído comocontent
e as coordenadas delimitadoras polygon
. As span
informações apontam para o fragmento de texto dentro da propriedade de nível content
superior que contém o texto completo do documento.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Extração de texto, linhas e palavras
O modelo Read OCR extrai texto de estilo impresso e manuscrito como lines
e words
. O modelo produz coordenadas delimitadoras polygon
e confidence
para as palavras extraídas. A styles
coleção inclui qualquer estilo manuscrito para linhas, se detetado junto com as extensões apontando para o texto associado. Este recurso aplica-se aos idiomas manuscritos suportados.
Para Microsoft Word, Excel, PowerPoint e HTML, o Document Intelligence Read model v3.1 e versões posteriores extrai todo o texto incorporado como está. Os textos são extraditados sob a forma de palavras e parágrafos. Não há suporte para imagens incorporadas.
# Analyze lines.
if page.lines:
for line_idx, line in enumerate(page.lines):
words = get_words(page, line)
print(
f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
)
# Analyze words.
for word in words:
print(f"......Word '{word.content}' has a confidence of {word.confidence}")
Extração de estilo manuscrito
A resposta inclui classificar se cada linha de texto é de estilo de caligrafia ou não, juntamente com uma pontuação de confiança. Para obter mais informações, consulte Suporte a idiomas manuscritos. O exemplo a seguir mostra um trecho JSON de exemplo.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Se você ativou o recurso de complemento de fonte/estilo, também obterá o resultado de fonte/estilo como parte do styles
objeto.
Próximos passos v4.0
Conclua um guia de início rápido do Document Intelligence:
Explore a nossa API REST:
Encontre mais exemplos no GitHub:
Nota
Para extrair texto de imagens externas, como rótulos, sinais de rua e cartazes, use o recurso de leitura do Azure AI Image Analysis v4.0 otimizado para imagens gerais não documentais com uma API síncrona com desempenho aprimorado que facilita a incorporação de OCR em seus cenários de experiência do usuário.
O modelo OCR (Document Intelligence Read Optical Character Recognition) é executado em uma resolução mais alta do que o Azure AI Vision Read e extrai texto impresso e manuscrito de documentos PDF e imagens digitalizadas. Ele também inclui suporte para extrair texto de documentos do Microsoft Word, Excel, PowerPoint e HTML. Ele deteta parágrafos, linhas de texto, palavras, locais e idiomas. O modelo Read é o mecanismo de OCR subjacente para outros modelos pré-construídos de Document Intelligence como Layout, Documento Geral, Fatura, Recibo, Documento de Identidade (ID), Cartão de seguro de saúde, W2, além de modelos personalizados.
O que é OCR para documentos?
O Reconhecimento Ótico de Caracteres (OCR) para documentos é otimizado para documentos grandes com muito texto em vários formatos de arquivo e idiomas globais. Inclui funcionalidades como digitalização de imagens de documentos de alta resolução para um melhor manuseamento de texto mais pequeno e denso; deteção de parágrafos; e gestão de formulários preenchíveis. Os recursos de OCR também incluem cenários avançados, como caixas de caracteres únicos e extração precisa de campos-chave comumente encontrados em faturas, recibos e outros cenários pré-construídos.
Opções de desenvolvimento
O Document Intelligence v3.1 suporta as seguintes ferramentas, aplicativos e bibliotecas:
Caraterística | Recursos | Model ID |
---|---|---|
Ler modelo OCR | • Document Intelligence Studio • API REST • C# SDK • Python SDK • Java SDK • JavaScript SDK |
leitura pré-embutida |
O Document Intelligence v3.0 suporta as seguintes ferramentas, aplicações e bibliotecas:
Caraterística | Recursos | Model ID |
---|---|---|
Ler modelo OCR | • Document Intelligence Studio • API REST • C# SDK • Python SDK • Java SDK • JavaScript SDK |
leitura pré-embutida |
Requisitos de entrada
Formatos de ficheiro suportados:
Modelo PDF Imagem: JPEG/JPG
,PNG
,BMP
,TIFF
, ,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLLida ✔ ✔ ✔ Esquema ✔ ✔ ✔ Documento Geral ✔ ✔ Pré-criado ✔ ✔ Extração personalizada ✔ ✔ Classificação personalizada ✔ ✔ ✔ Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e
4
MB para a camada gratuita (F0).As dimensões da imagem devem estar entre 50 pixels x 50 pixels e 10.000 pixels x 10.000 pixels.
Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a cerca
8
de texto pontual a 150 pontos por polegada (DPI).Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e
1
GB para o modelo neural.Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é
1
GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treinamento é2
GB com um máximo de 10.000 páginas.
Introdução ao modelo Read
Tente extrair texto de formulários e documentos usando o Document Intelligence Studio. Você precisa dos seguintes ativos:
Uma assinatura do Azure — você pode criar uma gratuitamente.
Uma instância de Document Intelligence no portal do Azure. Você pode usar o nível de preço gratuito (
F0
) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter sua chave e o ponto de extremidade.
Nota
Atualmente, o Document Intelligence Studio não suporta os formatos de arquivo Microsoft Word, Excel, PowerPoint e HTML.
Exemplo de documento processado com o Document Intelligence Studio
Na home page do Document Intelligence Studio, selecione Ler.
Pode analisar o documento de exemplo ou carregar os seus próprios ficheiros.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar:
Idiomas e localidades suportados
Consulte a nossa página Suporte a idiomas — modelos de análise de documentos para obter uma lista completa dos idiomas suportados.
Extração de dados
Nota
Microsoft Word e arquivo HTML são suportados na v3.1 e versões posteriores. Em comparação com PDF e imagens, os recursos abaixo não são suportados:
- Não há ângulo, largura/altura e unidade com cada objeto de página.
- Para cada objeto detetado, não há polígono delimitador ou região delimitadora.
- O intervalo de páginas (
pages
) não é suportado como parâmetro. - Nenhum
lines
objeto.
PDF pesquisável
O recurso de PDF pesquisável permite converter um PDF analógico, como arquivos PDF de imagem digitalizada, em um PDF com texto incorporado. O texto incorporado permite a pesquisa profunda de texto dentro do conteúdo extraído do PDF, sobrepondo as entidades de texto detetadas sobre os arquivos de imagem.
Importante
- Atualmente, o recurso PDF pesquisável é suportado apenas pelo modelo
prebuilt-read
Read OCR. Ao usar esse recurso, especifique omodelId
comoprebuilt-read
, pois outros tipos de modelo retornarão um erro. - O PDF pesquisável está incluído no modelo 2024-11-30
prebuilt-read
sem custo adicional para gerar uma saída PDF pesquisável.- Atualmente, o PDF pesquisável só suporta arquivos PDF como entrada. O suporte para outros tipos de ficheiros, como ficheiros de imagem, estará disponível mais tarde.
Use PDF pesquisável
Para usar PDF pesquisável, faça uma POST
solicitação usando a Analyze
operação e especifique o formato de saída como pdf
:
POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202
Sondagem para conclusão da Analyze
operação. Quando a operação estiver concluída, emita uma GET
solicitação para recuperar o formato PDF dos resultados da Analyze
operação.
Após a conclusão bem-sucedida, o PDF pode ser recuperado e baixado como application/pdf
. Esta operação permite o download direto da forma de texto incorporado do PDF em vez do JSON codificado em Base64.
// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}
// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf
Páginas
A coleção pages é uma lista de páginas dentro do documento. Cada página é representada sequencialmente dentro do documento e inclui o ângulo de orientação que indica se a página é girada e a largura e altura (dimensões em pixels). As unidades de página na saída do modelo são calculadas como mostrado:
Formato do ficheiro | Unidade de página computada | Total de páginas |
---|---|---|
Imagens (JPEG/JPG, PNG, BMP, HEIF) | Cada imagem = 1 unidade de página | Total de imagens |
Cada página no PDF = unidade de 1 página | Total de páginas no PDF | |
TIFF | Cada imagem no TIFF = 1 unidade de página | Total de imagens no TIFF |
Palavra (DOCX) | Até 3.000 caracteres = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas | Total de páginas de até 3.000 caracteres cada |
Excel (XLSX) | Cada planilha = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas | Total de planilhas |
PowerPoint (PPTX) | Cada slide = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas | Total de diapositivos |
HTML | Até 3.000 caracteres = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas | Total de páginas de até 3.000 caracteres cada |
"pages": [
{
"pageNumber": 1,
"angle": 0,
"width": 915,
"height": 1190,
"unit": "pixel",
"words": [],
"lines": [],
"spans": []
}
]
# Analyze pages.
for page in result.pages:
print(f"----Analyzing document from page #{page.page_number}----")
print(
f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
)
Selecionar páginas para extração de texto
Para documentos PDF grandes de várias páginas, use o pages
parâmetro query para indicar números de página específicos ou intervalos de páginas para extração de texto.
Parágrafos
O modelo Read OCR no Document Intelligence extrai todos os blocos de texto identificados na paragraphs
coleção como um objeto de nível superior em analyzeResults
. Cada entrada nesta coleção representa um bloco de texto e inclui o texto extraído comocontent
e as coordenadas delimitadoras polygon
. As span
informações apontam para o fragmento de texto dentro da propriedade de nível content
superior que contém o texto completo do documento.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Texto, linhas e palavras
O modelo Read OCR extrai texto de estilo impresso e manuscrito como lines
e words
. O modelo produz coordenadas delimitadoras polygon
e confidence
para as palavras extraídas. A styles
coleção inclui qualquer estilo manuscrito para linhas, se detetado junto com as extensões apontando para o texto associado. Este recurso aplica-se aos idiomas manuscritos suportados.
Para Microsoft Word, Excel, PowerPoint e HTML, o Document Intelligence Read model v3.1 e versões posteriores extrai todo o texto incorporado como está. Os textos são extraditados sob a forma de palavras e parágrafos. Não há suporte para imagens incorporadas.
"words": [
{
"content": "While",
"polygon": [],
"confidence": 0.997,
"span": {}
},
],
"lines": [
{
"content": "While healthcare is still in the early stages of its Al journey, we",
"polygon": [],
"spans": [],
}
]
# Analyze lines.
for line_idx, line in enumerate(page.lines):
words = line.get_words()
print(
f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
)
# Analyze words.
for word in words:
print(
f"......Word '{word.content}' has a confidence of {word.confidence}"
)
Estilo manuscrito para linhas de texto
A resposta inclui classificar se cada linha de texto é de estilo de caligrafia ou não, juntamente com uma pontuação de confiança. Para obter mais informações, consulte Suporte a idiomas manuscritos. O exemplo a seguir mostra um trecho JSON de exemplo.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Se você ativou o recurso de complemento de fonte/estilo, também obterá o resultado de fonte/estilo como parte do styles
objeto.
Próximos passos
Conclua um guia de início rápido do Document Intelligence:
Explore a nossa API REST:
Encontre mais exemplos no GitHub: