Modelos personalizados de Document Intelligence
Este conteúdo aplica-se a: v4.0 (GA) | Versões anteriores: v3.1 (GA) v3.0 (GA) v2.1 (GA)
::: Apelido-fim
Este conteúdo aplica-se a: v2.1 | Última versão: v4.0 (GA)
O Document Intelligence usa tecnologia avançada de aprendizado de máquina para identificar documentos, detetar e extrair informações de formulários e documentos e retornar os dados extraídos em uma saída JSON estruturada. Com o Document Intelligence, você pode usar modelos de análise de documentos, pré-construídos/pré-treinados ou seus modelos personalizados autônomos treinados.
Os modelos personalizados agora incluem modelos de classificação personalizados para cenários em que você precisa identificar o tipo de documento antes de invocar o modelo de extração. Os modelos de classificadores estão disponíveis a partir da 2023-07-31 (GA)
API. Um modelo de classificação pode ser emparelhado com um modelo de extração personalizado para analisar e extrair campos de formulários e documentos específicos para o seu negócio. Modelos de extração personalizados autônomos podem ser combinados para criar modelos compostos.
Tipos de modelo de documento personalizado
Os modelos de documentos personalizados podem ser de dois tipos, modelo ou formulário personalizado e modelos de documentos neurais ou personalizados personalizados. O processo de rotulagem e treinamento para ambos os modelos é idêntico, mas os modelos diferem da seguinte forma:
Modelos de extração personalizados
Para criar um modelo de extração personalizado, rotule um conjunto de dados de documentos com os valores que você deseja extrair e treine o modelo no conjunto de dados rotulado. Você só precisa de cinco exemplos do mesmo formulário ou tipo de documento para começar.
Modelo neural personalizado
Importante
A API de Inteligência v4.0 2024-11-30 (GA)
de Documentos suporta campos de sobreposição de modelos neurais personalizados, deteção de assinaturas e confiança em nível de tabela, linha e célula.
O modelo neural personalizado (documento personalizado) usa modelos de aprendizagem profunda e modelo base treinado em uma grande coleção de documentos. Esse modelo é então ajustado ou adaptado aos seus dados quando você treina o modelo com um conjunto de dados rotulado. Os modelos neurais personalizados suportam a extração de campos de dados importantes de documentos estruturados, semiestruturados e não estruturados. Ao escolher entre os dois tipos de modelo, comece com um modelo neural para determinar se ele atende às suas necessidades funcionais. Consulte modelos neurais para saber mais sobre modelos de documentos personalizados.
Modelo de modelo personalizado
O modelo personalizado ou modelo de formulário personalizado depende de um modelo visual consistente para extrair os dados rotulados. As variações na estrutura visual dos documentos afetam a precisão do modelo. Formulários estruturados, como questionários ou aplicativos, são exemplos de modelos visuais consistentes.
Seu conjunto de treinamento consiste em documentos estruturados onde a formatação e o layout são estáticos e constantes de uma instância de documento para outra. Os modelos de modelo personalizados suportam pares chave-valor, marcas de seleção, tabelas, campos de assinatura e regiões. Modelo e pode ser treinado em documentos em qualquer um dos idiomas suportados. Para obter mais informações, consulte modelos de modelo personalizados.
Se a linguagem de seus documentos e cenários de extração oferecer suporte a modelos neurais personalizados, recomendamos que você use modelos neurais personalizados em vez de modelos de modelo para maior precisão.
Gorjeta
Para confirmar se seus documentos de treinamento apresentam um modelo visual consistente, remova todos os dados inseridos pelo usuário de cada formulário no conjunto. Se os formulários em branco forem idênticos na aparência, eles representam um modelo visual consistente.
Para obter mais informações, consulte Interpretar e melhorar a precisão e a confiança para modelos personalizados.
Requisitos de entrada
Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.
Formatos de ficheiro suportados:
Modelo PDF Imagem: jpeg/jpg
,png
,bmp
,tiff
, ,heif
Microsoft Office:
Word (docx), Excel (xlsx), PowerPoint (pptx)Lida ✔ ✔ ✔ Esquema ✔ ✔ ✔ Documento Geral ✔ ✔ Pré-criado ✔ ✔ Extração personalizada ✔ ✔ Classificação personalizada ✔ ✔ ✔ ✱ Os ficheiros do Microsoft Office não são atualmente suportados para outros modelos ou versões.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.
Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a um texto de cerca
8
de -ponto a 150 pontos por polegada.Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para treinamento de modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1G-MB para o modelo neural.
Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é
1GB
de no máximo 10.000 páginas.
Dados de treinamento ideais
Os dados de entrada de treinamento são a base de qualquer modelo de aprendizado de máquina. Ele determina a qualidade, precisão e desempenho do modelo. Portanto, é crucial criar os melhores dados de entrada de treinamento possíveis para o seu projeto de Document Intelligence. Ao usar o modelo personalizado de Document Intelligence, você fornece seus próprios dados de treinamento. Aqui estão algumas dicas para ajudar a treinar seus modelos de forma eficaz:
Sempre que possível, use PDFs baseados em texto em vez de imagem. Uma maneira de identificar um PDF baseado em imagem* é tentar selecionar texto específico no documento. Se você puder selecionar apenas a imagem inteira do texto, o documento será baseado em imagem e não em texto.
Organize seus documentos de treinamento usando uma subpasta para cada formato (JPEG/JPG, PNG, BMP, PDF ou TIFF).
Use formulários que tenham todos os campos disponíveis preenchidos.
Use formulários com valores diferentes em cada campo.
Use um conjunto de dados maior (mais de cinco documentos de treinamento) se suas imagens forem de baixa qualidade.
Determine se você precisa usar um único modelo ou vários modelos compostos em um único modelo.
Considere segmentar seu conjunto de dados em pastas, onde cada pasta é um modelo exclusivo. Treine um modelo por pasta e componha os modelos resultantes em um único ponto de extremidade. A precisão do modelo pode diminuir quando você tem diferentes formatos analisados com um único modelo.
Considere segmentar seu conjunto de dados para treinar vários modelos se o formulário tiver variações com formatos e quebras de página. Os formulários personalizados dependem de um modelo visual consistente.
Certifique-se de ter um conjunto de dados equilibrado contabilizando formatos, tipos de documentos e estrutura.
Modo de construção
A build custom model
operação adiciona suporte para o modelo e modelos personalizados neurais . As versões anteriores da API REST e das bibliotecas de cliente suportavam apenas um único modo de compilação que agora é conhecido como o modo de modelo .
Os modelos de modelo só aceitam documentos que tenham a mesma estrutura básica de página — uma aparência visual uniforme — ou o mesmo posicionamento relativo de elementos dentro do documento.
Os modelos neurais suportam documentos que têm as mesmas informações, mas estruturas de página diferentes. Exemplos desses documentos incluem formulários W2 dos Estados Unidos, que compartilham as mesmas informações, mas variam em aparência entre as empresas.
Esta tabela fornece links para as referências SDK da linguagem de programação do modo de compilação e exemplos de código no GitHub:
Linguagem de programação | Referência do SDK | Exemplo de código |
---|---|---|
C#/.NET | Estrutura DocumentBuildMode | Sample_BuildCustomModelAsync.cs |
Java | DocumentBuildMode Classe | BuildModel.java |
JavaScript | Tipo DocumentBuildMode | buildModel.js |
Python | DocumentBuildMode Enum | sample_build_model.py |
Comparar recursos do modelo
A tabela a seguir compara o modelo personalizado e os recursos neurais personalizados:
Caraterística | Modelo personalizado (formulário) | Neural personalizado (documento) |
---|---|---|
Estrutura dos documentos | Modelo, formulário e estrutura | Estruturado, semi-estruturado e não estruturado |
Tempo de preparação | 1 a 5 minutos | 20 minutos a 1 hora |
Extração de dados | Pares chave-valor, tabelas, marcas de seleção, coordenadas e assinaturas | Pares chave-valor, marcas de seleção e tabelas |
Campos sobrepostos | Não suportado | Suportado |
Variações de documentos | Requer um modelo por cada variação | Usa um único modelo para todas as variações |
Suporte de idiomas | Modelo personalizado de suporte de idioma | Suporte de idioma neural personalizado |
Modelo de classificação personalizado
A classificação de documentos é um novo cenário suportado pela Document Intelligence com a 2023-07-31
API (v3.1 GA). A API do classificador de documentos suporta cenários de classificação e divisão. Treine um modelo de classificação para identificar os diferentes tipos de documentos suportados pelo seu aplicativo. O arquivo de entrada para o modelo de classificação pode conter vários documentos e classifica cada documento dentro de um intervalo de páginas associado. Para saber mais, consulte Modelos de classificação personalizados.
Nota
O v4.0 2024-11-30 (GA)
modelo de classificação de documentos suporta tipos de documentos do Office para classificação. Esta versão da API também introduz treinamento incremental para o modelo de classificação.
Ferramentas de modelo personalizadas
O Document Intelligence v3.1 e modelos posteriores suportam as seguintes ferramentas, aplicativos e bibliotecas, programas e bibliotecas:
Caraterística | Recursos | Model ID |
---|---|---|
Modelo personalizado | • Document Intelligence Studio • API REST • C# SDK • Python SDK |
ID do modelo personalizado |
Ciclo de vida do modelo personalizado
O ciclo de vida de um modelo personalizado depende da versão da API usada para treiná-lo. Se a versão da API for uma versão de disponibilidade geral (GA), o modelo personalizado terá o mesmo ciclo de vida que essa versão. O modelo personalizado não está disponível para inferência quando a versão da API é preterida. Se a versão da API for uma versão de visualização, o modelo personalizado terá o mesmo ciclo de vida que a versão de visualização da API.
O Document Intelligence v2.1 suporta as seguintes ferramentas, aplicações e bibliotecas:
Nota
Tipos de modelo personalizados , modelos neurais e personalizados estão disponíveis com as APIs do Document Intelligence versão v3.1 e v3.0.
Caraterística | Recursos |
---|---|
Modelo personalizado | • Ferramenta de etiquetagem de Inteligência Documental• API REST • SDK da biblioteca do cliente• Contêiner Docker de Inteligência Documental |
Criar um modelo personalizado
Extraia dados de seus documentos específicos ou exclusivos usando modelos personalizados. Você precisa dos seguintes recursos:
Uma subscrição do Azure. Você pode criar um gratuitamente.
Uma instância de Document Intelligence no portal do Azure. Você pode usar o nível de preço gratuito (
F0
) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter sua chave e o ponto de extremidade.
Ferramenta de etiquetagem de amostra
Gorjeta
- Para uma experiência melhorada e uma qualidade de modelo avançada, experimente o Document Intelligence v3.0 Studio.
- O v3.0 Studio suporta qualquer modelo treinado com dados rotulados v2.1.
- Você pode consultar o guia de migração de API para obter informações detalhadas sobre a migração da v2.1 para a v3.0.
- Veja nossa API REST ou C#, Java, JavaScript ou Python SDK .. /quickstarts para começar com a versão v3.0.
A ferramenta Document Intelligence Sample Labeling é uma ferramenta de código aberto que permite testar os recursos mais recentes de Document Intelligence e OCR (Optical Character Recognition).
Experimente o início rápido da ferramenta Etiquetagem de Amostra para começar a criar e usar um modelo personalizado.
Estúdio de Inteligência de Documentação
Nota
O Document Intelligence Studio está disponível com APIs v3.1 e v3.0.
Na página inicial do Document Intelligence Studio , selecione Modelos de extração personalizados.
Em Meus Projetos, selecione Criar um projeto.
Preencha os campos de detalhes do projeto.
Configure o recurso de serviço adicionando sua conta de armazenamento e contêiner de Blob para conectar sua fonte de dados de treinamento.
Reveja e crie o seu projeto.
Adicione seus documentos de exemplo para rotular, criar e testar seu modelo personalizado.
Para obter um passo a passo detalhado para criar seu primeiro modelo de extração personalizado, consulte Como criar um modelo de extração personalizado.
Resumo da extração do modelo personalizado
Esta tabela compara as áreas de extração de dados suportadas:
Modelo | Campos de formulário | Marcas de seleção | Campos estruturados (Tabelas) | Assinatura | Rotulagem de regiões | Campos sobrepostos |
---|---|---|---|---|---|---|
Modelo personalizado | ✔ | ✔ | ✔ | ✔ | ✔ | n/a |
Neural personalizado | ✔ | ✔ | ✔ | ✔ | * | ✔ |
Símbolos da tabela:
✔ —Suportado
**n/a—Atualmente indisponível;
*-Comporta-se de forma diferente dependendo do modelo. Com modelos de modelo, os dados sintéticos são gerados no momento do treinamento. Com modelos neurais, o texto de saída reconhecido na região é selecionado.
Gorjeta
Ao escolher entre os dois tipos de modelo, comece com um modelo neural personalizado se ele atender às suas necessidades funcionais. Consulte neural personalizado para saber mais sobre modelos neurais personalizados.
Opções de desenvolvimento de modelos personalizados
A tabela a seguir descreve os recursos disponíveis com as ferramentas associadas e bibliotecas de cliente. Como prática recomendada, certifique-se de usar as ferramentas compatíveis listadas aqui.
Document type | API REST | SDK | Modelos de etiquetas e testes |
---|---|---|---|
Modelo personalizado v 4.0 v3.1 v3.0 | Inteligência Documental 3.1 | SDK de Inteligência Documental | Estúdio de Inteligência de Documentação |
Neural personalizado v4.0 v3.1 v3.0 | Inteligência Documental 3.1 | SDK de Inteligência Documental | Estúdio de Inteligência de Documentação |
Formulário personalizado v2.1 | API de Inteligência Documental 2.1 GA | SDK de Inteligência Documental | Ferramenta de etiquetagem de amostra |
Nota
Os modelos de modelo personalizados treinados com a API 3.0 terão algumas melhorias em relação à API 2.1 decorrentes de melhorias no mecanismo OCR. Os conjuntos de dados usados para treinar um modelo de modelo personalizado usando a API 2.1 ainda podem ser usados para treinar um novo modelo usando a API 3.0.
Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.
Os formatos de ficheiro suportados são JPEG/JPG, PNG, BMP, TIFF e PDF (texto incorporado ou digitalizado). Os PDFs incorporados com texto são a melhor forma de eliminar a possibilidade de erros durante a extração e localização de carateres.
Para arquivos PDF e TIFF, até 2.000 páginas podem ser processadas. Com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas.
O tamanho do arquivo deve ser inferior a 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões da imagem têm de ser entre 50 x 50 e 10 000 x 10 000 píxeis.
As dimensões do PDF são de até 17 x 17 polegadas, correspondendo ao tamanho de papel Legal ou A3, ou menor.
O tamanho total dos dados de treinamento é de 500 páginas ou menos.
Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.
Gorjeta
Dados de preparação:
- Se possível, utilize documentos PDF baseados em texto em vez de documentos baseados em imagens. Os PDFs digitalizados são processados como imagens.
- Forneça apenas uma única instância do formulário por documento.
- Para formulários preenchidos, use exemplos que tenham todos os campos preenchidos.
- Utilize formulários com diferentes valores em cada campo.
- Se as imagens do formulário forem de qualidade inferior, use um conjunto de dados maior. Por exemplo, use de 10 a 15 imagens.
Idiomas e localidades suportados
Consulte a nossa página Suporte a idiomas — modelos personalizados para obter uma lista completa dos idiomas suportados.
Próximos passos
Tente processar seus próprios formulários e documentos com a ferramenta Document Intelligence Sample Labeling.
Conclua um início rápido do Document Intelligence e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.
Tente processar seus próprios formulários e documentos com o Document Intelligence Studio.
Conclua um início rápido do Document Intelligence e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.