Modelo de fatura da Informação de Documentos
Esse conteúdo se aplica a: v4.0 (GA) | Versões anteriores: v3.1 (GA) v3.0 (GA) v2.1 (GA)
::: moniker-end
Esse conteúdo se aplica a: v2.1 | Última versão: v4.0 (GA)
O modelo de fatura da Informação de Documentos usa recursos avançados de Reconhecimento Óptico de Caracteres (OCR) para analisar e extrair os campos-chave e os itens de linha das faturas de vendas. As faturas podem ter ser de vários formatos e qualidade, incluindo imagens capturadas por telefone, documentos digitalizados e arquivos PDF digitais. A API analisa o texto da nota fiscal; extrai informações importantes, como nome do cliente, endereço de cobrança, data de vencimento e valor devido; e retorna uma representação de dados JSON estruturada. Atualmente, o modelo oferece suporte a faturas em 27 idiomas.
Tipos de documento com suporte:
- Faturas
- Contas de serviço público
- Ordens de vendas
- Ordens de compra
Processamento automatizado de faturas
O processamento automatizado de faturas é o processo de extração de campos chave accounts payable
de documentos de conta de cobrança. Os dados extraídos incluem itens de linha de faturas integradas aos fluxos de trabalho das AP (contas a pagar) para revisões e pagamentos. Historicamente, o processo de contas a pagar é feito de forma manual e, sendo assim, é muito demorada. A extração exata de dados-chave das faturas normalmente é a primeira e uma das etapas mais críticas no processo de automação de faturas.
Amostra de fatura processada com o Estúdio de Informação de Documentos:
Amostra de fatura processada com a Amostra de Ferramenta de Rotulagem da Informação de Documentos:
Opções de desenvolvimento
Document Intelligence v4.0: 2024-11-30 (GA) oferece suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos | ID do Modelo |
---|---|---|
Modelo de fatura | • Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
prebuilt-invoice |
A Informação de Documentos v3.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos | ID do Modelo |
---|---|---|
Modelo de fatura | • Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
prebuilt-invoice |
A Informação de Documentos v3.0 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos | ID do Modelo |
---|---|---|
Modelo de fatura | • Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
prebuilt-invoice |
O Document Intelligence v2.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos |
---|---|
Modelo de fatura | ● Ferramenta de rotulagem da Informação de Documentos • API REST • SDK da biblioteca de clientes • Contêiner do Docker da Informação de Documentos |
Requisitos de entrada
Formatos de arquivo com suporte:
Modelar PDF Image,: JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLLer ✔ ✔ ✔ Layout ✔ ✔ ✔ Documento geral ✔ ✔ Predefinida ✔ ✔ Extração personalizada ✔ ✔ Classificação personalizada ✔ ✔ ✔ Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de camada gratuita, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para análise de documentos é de 500 MB para a camada paga (S0) e
4
MB para a camada gratuita (F0).As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 x 10.000 pixels.
Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1.024 x 768 pixels. Essa dimensão corresponde a aproximadamente
8
pontos de texto a 150 pontos por polegada (DPI).Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e
1
GB para o modelo neural.Para o treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é de
1
GB, com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treinamento é2
GB com um máximo de 10.000 páginas.
- Formatos de arquivo com suporte: JPEG, PNG, PDF e TIFF.
- PDF e TIFF têm suporte, até 2.000 páginas são processadas. Para assinantes de camada gratuita, somente as duas primeiras páginas são processadas.
- Para ter suporte, o tamanho do arquivo precisa ser menor que 50 MB e ter como dimensões, no mínimo, 50 x 50 pixels e, no máximo, 10.000 x 10.000 pixels.
Extração de dados do modelo de fatura
Veja como os dados, incluindo informações do cliente, detalhes do fornecedor e itens de linha, são extraídos das notas fiscais. Você precisa dos seguintes recursos:
Uma assinatura do Azure — você pode criar uma gratuitamente.
Uma instância da Informação de Documentos no portal do Azure. Você pode usar o tipo de preço gratuito (
F0
) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter a chave e o ponto de extremidade.
Na página inicial do Estúdio da Informação de Documentos, selecione Faturas.
Você pode analisar o documento de amostra ou carregar seus próprios arquivos.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar :
Ferramenta de Rotulagem de Amostra da Informação de Documentos
Navegue até a Ferramenta de Exemplo da Informação de Documentos.
Na página inicial da ferramenta de exemplos, selecione o bloco Usar modelo predefinido para obter dados.
Selecione o Tipo de Formulário que deseja analisar no menu suspenso.
Escolha um URL para o arquivo que você gostaria de analisar, usando as opções abaixo:
No campo Origem , selecione URL no menu suspenso, cole a URL selecionada e selecione o botão Buscar.
No campo Ponto de extremidade do serviço Informação de Documentos, cole o ponto de extremidade obtido com a assinatura da Informação de Documentos.
No campo chave, cole a chave obtida do recurso Informação de Documentos.
Selecione Executar análise. A ferramenta de rotulagem de exemplo da Informação de Documentos chamará a API predefinida Analisar e analisará o documento.
Veja os resultados: confira os pares chave-valor extraídos, os itens de linha, o texto realçado extraído e as tabelas detectadas.
Observação
A ferramenta de Rotulagem de Exemplo não é compatível com o formato de arquivo BMP. Essa é uma limitação da ferramenta, não do Serviço de Inteligência de Documentos.
Idiomas e localidades com suporte
Para obter uma lista completa dos idiomas compatíveis, consulte nossa página de suporte a idiomas de modelos predefinidos.
Extração de campo
Para campos de extração de documentos suportados, veja a página esquema do modelo de fatura em nosso repositório de exemplos do GitHub.
Os pares de valor da chave da fatura e os itens de linha extraídos estão na seção
documentResults
da saída JSON.
Pares de valores-chave
O modelo de fatura pré-integrada aceita o retorno opcional de pares de chave-valor. Por padrão, o retorno de pares de chave-valor está desabilitado. Pares chave-valor são intervalos específicos dentro da fatura que identificam um rótulo ou uma chave e a resposta ou o valor associado. Em uma fatura, esses pares podem ser o rótulo e o valor que o usuário inseriu para aquele campo ou número de telefone. O modelo de AI é treinado para extrair chaves e valores identificáveis com base em uma ampla variedade de tipos de documento, formatos e estruturas.
As chaves também podem existir isoladamente quando o modelo detecta que existe uma chave, sem valor associado ou ao processar campos opcionais. Por exemplo, um campo de nome do meio pode ser deixado em branco em um formulário em algumas instâncias. Pares chave-valor são sempre intervalos de texto contidos no documento. Para documentos em que o mesmo valor é descrito de maneiras diferentes, por exemplo, cliente/usuário, a chave associada é cliente ou usuário (com base no contexto).
Saída em JSON
A saída JSON tem três partes:
- O nó
"readResults"
contém todas as marcas de texto e seleção reconhecidas. O texto é organizado por meio de página, linha e, em seguida, por palavras individuais. - O nó
"pageResults"
contém tabelas e células extraídas com suas caixas delimitadoras, confiança e uma referência às linhas e palavras em readResults. - O nó
"documentResults"
contém valores específicos da fatura e os itens de linha que o modelo descobriu. É onde você encontra todos os campos da fatura, como ID, endereço de envio, endereço de cobrança, nome do cliente, valor total, itens de linha e muito mais.
Guia de migração
- Siga nosso Guia de migração da Informação de Documentos v3.1 para saber como usar a versão v3.0 em seus aplicativos e fluxos de trabalho.
::: moniker-end
Próximas etapas
Experimente processar seus próprios formulários e documentos com o Estúdio da Informação de Documentos.
Execute um início rápido do serviço Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.
Tente processar seus próprios formulários e documentos com a ferramenta Rotulagem de Amostra da Informação de Documentos.
Execute um início rápido do serviço Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.