Partilhar via


Modelo de leitura do Document Intelligence

Este conteúdo aplica-se a:marca de verificação v4.0 (GA) | Versões anteriores:Marca de verificação azul v3.1 (GA)Marca de verificação azul v3.0 (GA)

Este conteúdo aplica-se a:marca de verificação v4.0 (GA) | Versões anteriores:Marca de verificação azul v3.1 (GA)Marca de verificação azul v3.0 (GA)

Nota

Para extrair texto de imagens externas, como rótulos, sinais de rua e cartazes, use o recurso de leitura do Azure AI Image Analysis v4.0 otimizado para imagens gerais não documentais com uma API síncrona de desempenho aprimorado que facilita a incorporação de OCR em cenários de experiência do usuário em tempo real.

O modelo OCR (Document Intelligence Read Optical Character Recognition) é executado em uma resolução mais alta do que o Azure AI Vision Read e extrai texto impresso e manuscrito de documentos PDF e imagens digitalizadas. Ele também inclui suporte para extrair texto de documentos do Microsoft Word, Excel, PowerPoint e HTML. Ele deteta parágrafos, linhas de texto, palavras, locais e idiomas. O modelo Read é o mecanismo de OCR subjacente para outros modelos pré-construídos de Document Intelligence como Layout, Documento Geral, Fatura, Recibo, Documento de Identidade (ID), Cartão de seguro de saúde, W2, além de modelos personalizados.

O que é o Reconhecimento Ótico de Caracteres?

O Reconhecimento Ótico de Caracteres (OCR) para documentos é otimizado para documentos grandes com muito texto em vários formatos de arquivo e idiomas globais. Inclui funcionalidades como digitalização de imagens de documentos de alta resolução para um melhor manuseamento de texto mais pequeno e denso; deteção de parágrafos; e gestão de formulários preenchíveis. Os recursos de OCR também incluem cenários avançados, como caixas de caracteres únicos e extração precisa de campos-chave comumente encontrados em faturas, recibos e outros cenários pré-construídos.

Opções de desenvolvimento (v4)

O Document Intelligence v4.0: 2024-11-30 (GA) suporta as seguintes ferramentas, aplicações e bibliotecas:

Caraterística Recursos Model ID
Ler modelo OCR • Document Intelligence Studio
API REST
C# SDK
Python SDK
Java SDK
JavaScript SDK
leitura pré-embutida

Requisitos de entrada (v4)

  • Formatos de ficheiro suportados:

    Modelo PDF Imagem:
    JPEG/JPG, PNG, BMP, TIFF, , HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Lida
    Esquema
    Documento Geral
    Pré-criado
    Extração personalizada
    Classificação personalizada
  • Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.

  • Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).

  • O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).

  • As dimensões da imagem devem estar entre 50 pixels x 50 pixels e 10.000 pixels x 10.000 pixels.

  • Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.

  • A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a cerca 8 de texto pontual a 150 pontos por polegada (DPI).

  • Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.

    • Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1 GB para o modelo neural.

    • Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treinamento é 2 GB com um máximo de 10.000 páginas.

Introdução ao modelo Read (v4)

Tente extrair texto de formulários e documentos usando o Document Intelligence Studio. Você precisa dos seguintes ativos:

  • Uma assinatura do Azure — você pode criar uma gratuitamente.

  • Uma instância de Document Intelligence no portal do Azure. Você pode usar o nível de preço gratuito (F0) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter sua chave e o ponto de extremidade.

    Captura de ecrã das chaves e da localização do ponto de extremidade no portal do Azure.

Nota

Atualmente, o Document Intelligence Studio não suporta os formatos de arquivo Microsoft Word, Excel, PowerPoint e HTML.

Exemplo de documento processado com o Document Intelligence Studio

Captura de tela do processamento de leitura no Document Intelligence Studio.

  1. Na home page do Document Intelligence Studio, selecione Ler.

  2. Pode analisar o documento de exemplo ou carregar os seus próprios ficheiros.

  3. Selecione o botão Executar análise e, se necessário, configure as opções Analisar:

    Captura de tela dos botões Executar análise e Analisar opções no Document Intelligence Studio.

Idiomas e localidades suportados (v4)

Consulte a nossa página Suporte a idiomas — modelos de análise de documentos para obter uma lista completa dos idiomas suportados.

Extração de dados (v4)

Nota

Microsoft Word e arquivo HTML são suportados na v4.0. Em comparação com PDF e imagens, os recursos abaixo não são suportados:

  • Não há ângulo, largura/altura e unidade com cada objeto de página.
  • Para cada objeto detetado, não há polígono delimitador ou região delimitadora.
  • O intervalo de páginas (pages) não é suportado como parâmetro.
  • Nenhum lines objeto.

PDFs pesquisáveis

O recurso de PDF pesquisável permite converter um PDF analógico, como arquivos PDF de imagem digitalizada, em um PDF com texto incorporado. O texto incorporado permite a pesquisa profunda de texto dentro do conteúdo extraído do PDF, sobrepondo as entidades de texto detetadas sobre os arquivos de imagem.

Importante

  • Atualmente, o recurso PDF pesquisável é suportado apenas pelo modelo prebuilt-readRead OCR. Ao usar esse recurso, especifique o modelId como prebuilt-read, pois outros tipos de modelo retornarão erro para esta versão de visualização.
  • O PDF pesquisável está incluído no modelo GA prebuilt-read 2024-11-30 sem custo adicional para gerar uma saída PDF pesquisável.

Usar PDFs pesquisáveis

Para usar PDF pesquisável, faça uma POST solicitação usando a Analyze operação e especifique o formato de saída como pdf:


     POST /documentModels/prebuilt-read:analyze?output=pdf
     {...}
     202

Sondagem para conclusão da Analyze operação. Quando a operação estiver concluída, emita uma GET solicitação para recuperar o formato PDF dos resultados da Analyze operação.

Após a conclusão bem-sucedida, o PDF pode ser recuperado e baixado como application/pdf. Esta operação permite o download direto da forma de texto incorporado do PDF em vez do JSON codificado em Base64.


     // Monitor the operation until completion.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}
     200
     {...}

     // Upon successful completion, retrieve the PDF as application/pdf.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
     200 OK
     Content-Type: application/pdf

Parâmetro Pages

A coleção pages é uma lista de páginas dentro do documento. Cada página é representada sequencialmente dentro do documento e inclui o ângulo de orientação que indica se a página é girada e a largura e altura (dimensões em pixels). As unidades de página na saída do modelo são calculadas como mostrado:

Formato do ficheiro Unidade de página computada Total de páginas
Imagens (JPEG/JPG, PNG, BMP, HEIF) Cada imagem = 1 unidade de página Total de imagens
PDF Cada página no PDF = unidade de 1 página Total de páginas no PDF
TIFF Cada imagem no TIFF = 1 unidade de página Total de imagens no TIFF
Palavra (DOCX) Até 3.000 caracteres = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas Total de páginas de até 3.000 caracteres cada
Excel (XLSX) Cada planilha = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas Total de planilhas
PowerPoint (PPTX) Cada slide = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas Total de diapositivos
HTML Até 3.000 caracteres = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas Total de páginas de até 3.000 caracteres cada
    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

Usar páginas para extração de texto

Para documentos PDF grandes de várias páginas, use o pages parâmetro query para indicar números de página específicos ou intervalos de páginas para extração de texto.

Extração de parágrafos

O modelo Read OCR no Document Intelligence extrai todos os blocos de texto identificados na paragraphs coleção como um objeto de nível superior em analyzeResults. Cada entrada nesta coleção representa um bloco de texto e inclui o texto extraído comocontent e as coordenadas delimitadoras polygon . As span informações apontam para o fragmento de texto dentro da propriedade de nível content superior que contém o texto completo do documento.

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Extração de texto, linhas e palavras

O modelo Read OCR extrai texto de estilo impresso e manuscrito como lines e words. O modelo produz coordenadas delimitadoras polygon e confidence para as palavras extraídas. A styles coleção inclui qualquer estilo manuscrito para linhas, se detetado junto com as extensões apontando para o texto associado. Este recurso aplica-se aos idiomas manuscritos suportados.

Para Microsoft Word, Excel, PowerPoint e HTML, o Document Intelligence Read model v3.1 e versões posteriores extrai todo o texto incorporado como está. Os textos são extraditados sob a forma de palavras e parágrafos. Não há suporte para imagens incorporadas.

    # Analyze lines.
    if page.lines:
        for line_idx, line in enumerate(page.lines):
            words = get_words(page, line)
            print(
                f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
            )

            # Analyze words.
            for word in words:
                print(f"......Word '{word.content}' has a confidence of {word.confidence}")

Extração de estilo manuscrito

A resposta inclui classificar se cada linha de texto é de estilo de caligrafia ou não, juntamente com uma pontuação de confiança. Para obter mais informações, consulte Suporte a idiomas manuscritos. O exemplo a seguir mostra um trecho JSON de exemplo.

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Se você ativou o recurso de complemento de fonte/estilo, também obterá o resultado de fonte/estilo como parte do styles objeto.

Próximos passos v4.0

Conclua um guia de início rápido do Document Intelligence:

Explore a nossa API REST:

Encontre mais exemplos no GitHub:

Este conteúdo aplica-se a: marca de verificação v3.1 (GA) | Última versão: marca de verificação roxav4.0 (GA) | Versões anteriores: Marca de verificação azul v3.0

Este conteúdo aplica-se a: marca de verificação v3.0 (GA) | Últimas versões:marca de verificação roxa v4.0 (GA)marca de verificação roxa v3.1

Nota

Para extrair texto de imagens externas, como rótulos, sinais de rua e cartazes, use o recurso de leitura do Azure AI Image Analysis v4.0 otimizado para imagens gerais não documentais com uma API síncrona com desempenho aprimorado que facilita a incorporação de OCR em seus cenários de experiência do usuário.

O modelo OCR (Document Intelligence Read Optical Character Recognition) é executado em uma resolução mais alta do que o Azure AI Vision Read e extrai texto impresso e manuscrito de documentos PDF e imagens digitalizadas. Ele também inclui suporte para extrair texto de documentos do Microsoft Word, Excel, PowerPoint e HTML. Ele deteta parágrafos, linhas de texto, palavras, locais e idiomas. O modelo Read é o mecanismo de OCR subjacente para outros modelos pré-construídos de Document Intelligence como Layout, Documento Geral, Fatura, Recibo, Documento de Identidade (ID), Cartão de seguro de saúde, W2, além de modelos personalizados.

O que é OCR para documentos?

O Reconhecimento Ótico de Caracteres (OCR) para documentos é otimizado para documentos grandes com muito texto em vários formatos de arquivo e idiomas globais. Inclui funcionalidades como digitalização de imagens de documentos de alta resolução para um melhor manuseamento de texto mais pequeno e denso; deteção de parágrafos; e gestão de formulários preenchíveis. Os recursos de OCR também incluem cenários avançados, como caixas de caracteres únicos e extração precisa de campos-chave comumente encontrados em faturas, recibos e outros cenários pré-construídos.

Opções de desenvolvimento

O Document Intelligence v3.1 suporta as seguintes ferramentas, aplicativos e bibliotecas:

Caraterística Recursos Model ID
Ler modelo OCR • Document Intelligence Studio
API REST
C# SDK
Python SDK
Java SDK
JavaScript SDK
leitura pré-embutida

O Document Intelligence v3.0 suporta as seguintes ferramentas, aplicações e bibliotecas:

Caraterística Recursos Model ID
Ler modelo OCR • Document Intelligence Studio
API REST
C# SDK
Python SDK
Java SDK
JavaScript SDK
leitura pré-embutida

Requisitos de entrada

  • Formatos de ficheiro suportados:

    Modelo PDF Imagem:
    JPEG/JPG, PNG, BMP, TIFF, , HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Lida
    Esquema
    Documento Geral
    Pré-criado
    Extração personalizada
    Classificação personalizada
  • Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.

  • Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).

  • O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).

  • As dimensões da imagem devem estar entre 50 pixels x 50 pixels e 10.000 pixels x 10.000 pixels.

  • Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.

  • A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a cerca 8 de texto pontual a 150 pontos por polegada (DPI).

  • Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.

    • Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1 GB para o modelo neural.

    • Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treinamento é 2 GB com um máximo de 10.000 páginas.

Introdução ao modelo Read

Tente extrair texto de formulários e documentos usando o Document Intelligence Studio. Você precisa dos seguintes ativos:

  • Uma assinatura do Azure — você pode criar uma gratuitamente.

  • Uma instância de Document Intelligence no portal do Azure. Você pode usar o nível de preço gratuito (F0) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter sua chave e o ponto de extremidade.

Captura de ecrã das chaves e da localização do ponto de extremidade no portal do Azure.

Nota

Atualmente, o Document Intelligence Studio não suporta os formatos de arquivo Microsoft Word, Excel, PowerPoint e HTML.

Exemplo de documento processado com o Document Intelligence Studio

Captura de tela do processamento de leitura no Document Intelligence Studio.

  1. Na home page do Document Intelligence Studio, selecione Ler.

  2. Pode analisar o documento de exemplo ou carregar os seus próprios ficheiros.

  3. Selecione o botão Executar análise e, se necessário, configure as opções Analisar:

    Captura de tela dos botões Executar análise e Analisar opções no Document Intelligence Studio.

Idiomas e localidades suportados

Consulte a nossa página Suporte a idiomas — modelos de análise de documentos para obter uma lista completa dos idiomas suportados.

Extração de dados

Nota

Microsoft Word e arquivo HTML são suportados na v3.1 e versões posteriores. Em comparação com PDF e imagens, os recursos abaixo não são suportados:

  • Não há ângulo, largura/altura e unidade com cada objeto de página.
  • Para cada objeto detetado, não há polígono delimitador ou região delimitadora.
  • O intervalo de páginas (pages) não é suportado como parâmetro.
  • Nenhum lines objeto.

PDF pesquisável

O recurso de PDF pesquisável permite converter um PDF analógico, como arquivos PDF de imagem digitalizada, em um PDF com texto incorporado. O texto incorporado permite a pesquisa profunda de texto dentro do conteúdo extraído do PDF, sobrepondo as entidades de texto detetadas sobre os arquivos de imagem.

Importante

  • Atualmente, o recurso PDF pesquisável é suportado apenas pelo modelo prebuilt-readRead OCR. Ao usar esse recurso, especifique o modelId como prebuilt-read, pois outros tipos de modelo retornarão um erro.
  • O PDF pesquisável está incluído no modelo 2024-11-30 prebuilt-read sem custo adicional para gerar uma saída PDF pesquisável.
    • Atualmente, o PDF pesquisável só suporta arquivos PDF como entrada. O suporte para outros tipos de ficheiros, como ficheiros de imagem, estará disponível mais tarde.

Use PDF pesquisável

Para usar PDF pesquisável, faça uma POST solicitação usando a Analyze operação e especifique o formato de saída como pdf:


    POST /documentModels/prebuilt-read:analyze?output=pdf
    {...}
    202

Sondagem para conclusão da Analyze operação. Quando a operação estiver concluída, emita uma GET solicitação para recuperar o formato PDF dos resultados da Analyze operação.

Após a conclusão bem-sucedida, o PDF pode ser recuperado e baixado como application/pdf. Esta operação permite o download direto da forma de texto incorporado do PDF em vez do JSON codificado em Base64.


    // Monitor the operation until completion.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}
    200
    {...}

    // Upon successful completion, retrieve the PDF as application/pdf.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
    200 OK
    Content-Type: application/pdf

Páginas

A coleção pages é uma lista de páginas dentro do documento. Cada página é representada sequencialmente dentro do documento e inclui o ângulo de orientação que indica se a página é girada e a largura e altura (dimensões em pixels). As unidades de página na saída do modelo são calculadas como mostrado:

Formato do ficheiro Unidade de página computada Total de páginas
Imagens (JPEG/JPG, PNG, BMP, HEIF) Cada imagem = 1 unidade de página Total de imagens
PDF Cada página no PDF = unidade de 1 página Total de páginas no PDF
TIFF Cada imagem no TIFF = 1 unidade de página Total de imagens no TIFF
Palavra (DOCX) Até 3.000 caracteres = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas Total de páginas de até 3.000 caracteres cada
Excel (XLSX) Cada planilha = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas Total de planilhas
PowerPoint (PPTX) Cada slide = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas Total de diapositivos
HTML Até 3.000 caracteres = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas Total de páginas de até 3.000 caracteres cada
    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]
    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(
            f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
        )

Selecionar páginas para extração de texto

Para documentos PDF grandes de várias páginas, use o pages parâmetro query para indicar números de página específicos ou intervalos de páginas para extração de texto.

Parágrafos

O modelo Read OCR no Document Intelligence extrai todos os blocos de texto identificados na paragraphs coleção como um objeto de nível superior em analyzeResults. Cada entrada nesta coleção representa um bloco de texto e inclui o texto extraído comocontent e as coordenadas delimitadoras polygon . As span informações apontam para o fragmento de texto dentro da propriedade de nível content superior que contém o texto completo do documento.

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Texto, linhas e palavras

O modelo Read OCR extrai texto de estilo impresso e manuscrito como lines e words. O modelo produz coordenadas delimitadoras polygon e confidence para as palavras extraídas. A styles coleção inclui qualquer estilo manuscrito para linhas, se detetado junto com as extensões apontando para o texto associado. Este recurso aplica-se aos idiomas manuscritos suportados.

Para Microsoft Word, Excel, PowerPoint e HTML, o Document Intelligence Read model v3.1 e versões posteriores extrai todo o texto incorporado como está. Os textos são extraditados sob a forma de palavras e parágrafos. Não há suporte para imagens incorporadas.


    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]
    # Analyze lines.
    for line_idx, line in enumerate(page.lines):
        words = line.get_words()
        print(
            f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
        )

        # Analyze words.
        for word in words:
            print(
                f"......Word '{word.content}' has a confidence of {word.confidence}"
            )

Estilo manuscrito para linhas de texto

A resposta inclui classificar se cada linha de texto é de estilo de caligrafia ou não, juntamente com uma pontuação de confiança. Para obter mais informações, consulte Suporte a idiomas manuscritos. O exemplo a seguir mostra um trecho JSON de exemplo.

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Se você ativou o recurso de complemento de fonte/estilo, também obterá o resultado de fonte/estilo como parte do styles objeto.

Próximos passos

Conclua um guia de início rápido do Document Intelligence:

Explore a nossa API REST:

Encontre mais exemplos no GitHub: