Compartilhar via


Modelo neural personalizado do Informação de Documentos

Esse conteúdo se aplica a:marca de seleção v4.0 (GA) | Versões anteriores: marca de seleção azul v3.1 (GA) marca de seleção azul v3.0 (GA)

Esse conteúdo se aplica a: marca de seleção v3.1 (GA) | Última versão: marca de seleção púrpura v4.0 (GA) | Versões anteriores: marca de seleção azul v3.0

Esse conteúdo se aplica a: marca de seleção v3.0 (GA) | Últimas versões: marca de seleção púrpura v4.0 (GA) marca de seleção roxa v3.1

Modelos de documentos neurais personalizados ou modelos neurais consistem em um modelo de aprendizado profundo que combina recursos de layout e idioma para extrair com precisão os campos rotulados de documentos. O modelo neural personalizado base é treinado em vários tipos de documento que o tornam adequado para ser treinado para extrair campos de documentos estruturados e semiestruturados. Modelos neurais personalizados estão disponíveis nos modelos v3.0 e posteriores. Com a versão 4.0, o modelo neural personalizado agora oferece suporte à detecção de assinaturas. A tabela a seguir lista os tipos de documento comuns para cada categoria:

Documentos Exemplos
Estruturados pesquisas, questionários
Semiestruturados faturas, ordens de compra

Os modelos neurais personalizados compartilham o mesmo formato e estratégia de rotulagem que os modelos personalizados. Atualmente, os modelos neurais personalizados dão suporte somente a um subconjunto dos tipos de campo com suporte pelos modelos de template personalizados.

Funcionalidades de modelo

Importante

O modelo neural v4.0 2024-11-30 (GA) personalizado oferece suporte à detecção de assinatura, confiança em células de tabela e campos sobrepostos.

Atualmente, os modelos neurais personalizados dão suporte a pares chave-valor e marcas de seleção e campos estruturados (tabelas).

Campos de formulário Marcas de seleção Campos tabulares Assinatura Rotulagem de região Campos sobrepostos
Com suporte Compatível Compatível Com suporte Com suporte 1 Com suporte 2

Os rótulos da região 1 em modelos neurais personalizados usam os resultados da API de layout para a região especificada. Esse recurso é diferente dos modelos de modelo em que, se nenhum valor estiver presente, o texto será gerado no momento do treinamento.
2 Campos sobrepostos são suportados com a versão REST API 2024-11-30 (GA). Campos sobrepostos têm alguns limites. Para obter mais informações, confira campos sobrepostos.

Modo de criação

A operação Build dá suporte a modelos e modelos personalizados neurais. As versões anteriores da API REST e das bibliotecas de cliente só dão suporte a um único modo de build que agora é conhecido como o modo de modelo.

Os modelos neurais dão suporte a documentos que têm as mesmas informações, mas estruturas de página diferentes. Exemplos desses documentos incluem formulários W2 dos Estados Unidos, pois eles compartilham as mesmas informações, mas podem variar na aparência entre as empresas. Para obter mais informações, confira Modo de build de modelo personalizado.

Detecção de assinatura

O modelo neural personalizado v4.0 2024-11-30 (GA) oferece suporte à detecção de assinatura. Para rotular uma assinatura, use o tipo de campo como Assinatura e desenhe as regiões para assinatura. O campo de assinatura suporta apenas uma região de desenho por campo. Para treinar um modelo neural personalizado com detecção de assinatura, você precisa usar pelo menos cinco amostras com assinatura rotulada junto com variações para obter resultados mais precisos.

Campos tabulares

O modelo neural personalizado v4.0 2024-11-30 (GA) oferece suporte a campos tabulares (tabelas) para analisar dados de tabelas, linhas e células com mais confiança:

  • Modelos treinados com a versão de API 2022-06-30-preview ou posterior aceitarão rótulos de campo de tabela.
  • Documentos analisados com modelos neurais personalizados usando a API versão 2022-06-30-preview ou posterior produzirão campos tabulares agregados entre as tabelas.
  • Os resultados podem ser encontrados na matriz documents do objeto analyzeResult que é retornada após uma operação de análise.

Os campos tabulares dão suporte a tabelas entre páginas por padrão:

  • Para rotular uma tabela que abrange várias páginas, rotule cada linha da tabela entre as diferentes páginas da única tabela.
  • Como prática recomendada, verifique se o conjunto de dados contém exemplos das variações esperadas. Por exemplo, inclua exemplos em que a tabela inteira está em apenas uma página, e outros em que as tabelas abrangem duas ou mais páginas.

Campos tabulares também são úteis ao extrair informações recorrentes de um documento que não é reconhecido como uma tabela. Por exemplo, uma seção recorrente de experiências de trabalho em um currículo pode ser rotulada e extraída como um campo tabular.

Campos tabulares fornecem confiança em tabelas, linhas e células com a 2024-11-30 (GA) API:

  • Tabelas fixas ou dinâmicas adicionam suporte de confiança para os seguintes elementos:

    • Confiança da tabela, uma medida de quão precisa a tabela inteira é reconhecida.
    • Confiança de linha, uma medida de reconhecimento de uma linha individual.
    • Confiança de célula, uma medida de reconhecimento de uma célula individual.
  • A abordagem recomendada é examinar a precisão de uma maneira de cima para baixo, começando pela tabela primeiro, seguida pela linha e, em seguida, pela célula. Consulte pontuações de confiança e precisão para saber mais sobre a tabela, a linha e a confiança da célula.

Campos sobrepostos

O modelo neural personalizado v4.0 2024-11-30 (GA) oferece suporte a campos sobrepostos:

Para usar os campos sobrepostos, seu conjunto de dados precisa conter pelo menos um exemplo com a sobreposição esperada. Para rotular uma sobreposição, use a rotulagem de região para designar cada um dos intervalos de conteúdo (com a sobreposição) para cada campo. A rotulagem de uma sobreposição com a seleção de campo (realçando um valor) falha no Studio, pois a rotulagem de região é a única ferramenta de rotulagem com suporte para indicar sobreposições de campo. O suporte à sobreposição inclui:

  • Sobreposição completa. O mesmo conjunto de tokens é rotulado para dois campos diferentes.
  • Sobreposição parcial. Alguns tokens pertencem a ambos os campos, mas há tokens que são apenas parte de um campo ou outro.

Campos sobrepostos têm alguns limites:

  • Qualquer token ou palavra só pode ser rotulado como dois campos.
  • campos sobrepostos em uma tabela não podem abranger linhas de tabela.
  • Campos sobrepostos só poderão ser reconhecidos se pelo menos um exemplo no conjunto de dados contiver rótulos sobrepostos para esses campos.

Para usar campos sobrepostos, rotule seu conjunto de dados com as sobreposições e treine o modelo com a versão da API **2024-11-30 (GA)**.

Idiomas e localidades com suporte

Consulte nosso Suporte ao Idioma – modelos personalizados para obter uma lista completa de idiomas com suporte.

Regiões com suporte

A partir de 18 de outubro de 2022, o treinamento de modelos neurais personalizados da Informação de Documentos só estará disponível nas seguintes regiões do Azure até novo aviso:

  • Leste da Austrália
  • Brazil South
  • Canadá Central
  • Índia Central
  • Centro dos EUA
  • Leste da Ásia
  • Leste dos EUA
  • Leste dos EUA 2
  • França Central
  • Leste do Japão
  • Centro-Sul dos Estados Unidos
  • Sudeste Asiático
  • Sul do Reino Unido
  • Europa Ocidental
  • Oeste dos EUA 2
  • Governo dos EUA do Arizona
  • Gov. dos EUA – Virgínia

Dica

Você pode copiar um modelo treinado em uma das regiões listadas para qualquer outra região e usá-lo.

Utilize a API REST ou o Estúdio de Informação de Documentos para copiar um modelo para outra região.

Dica

Você pode copiar um modelo treinado em uma das regiões listadas para qualquer outra região e usá-lo.

Utilize a API REST ou o Estúdio de Informação de Documentos para copiar um modelo para outra região.

Dica

Você pode copiar um modelo treinado em uma das regiões listadas para qualquer outra região e usá-lo.

Utilize a API REST ou o Estúdio de Informação de Documentos para copiar um modelo para outra região.

Requisitos de entrada

  • Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.

  • Formatos de arquivo com suporte:

    Modelar PDF Imagem:
    jpeg/jpg, png, bmp, tiff, heif
    Microsoft Office:
    Word (docx), Excel (xlsx), PowerPoint (pptx) e HTML
    Ler
    Layout
    Documento geral
    Predefinida
    Neural personalizado

    ✱ Atualmente, não há suporte para arquivos do Microsoft Office para outros modelos ou versões.

  • Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de camada gratuita, apenas as duas primeiras páginas são processadas).

  • O tamanho do arquivo para análise de documentos é 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).

  • As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.

  • Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.

  • A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1.024 x 768 pixels. Essa dimensão corresponde a cerca de 8-texto de ponto a 150 pontos por polegada.

  • Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.

  • Para treinamento de modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo e 1G-MB para o modelo neural.

  • Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é 1GB com no máximo 10.000 páginas.

Práticas recomendadas

Os modelos neurais personalizados diferem dos modelos de template personalizados de formas diferentes. O modelo personalizado depende de um modelo visual consistente para extrair os dados rotulados. Modelos neurais personalizados dão suporte a estruturados e semiestruturados para extrair campos. Quando você estiver escolhendo entre os tipos de modelo, comece com um modelo neural e teste para determinar se ele dá suporte às suas necessidades funcionais.

  • Lidar com variações: modelos neurais personalizados podem generalizar em diferentes formatos de um único tipo de documento. Como melhor prática, crie um modelo único para todas as variações de um tipo de documento. Adicione pelo menos cinco exemplos rotulados para cada uma das variações diferentes aos conjuntos de dados de treinamento.
  • Nomenclatura de campo: quando você rotula os dados, rotular o campo relevante para o valor melhora a precisão dos pares chave-valor extraídos. Por exemplo, para um valor de campo que contenha a ID do fornecedor, considere nomear o campo como supplier_id. Os nomes de campo devem estar no idioma do documento.
  • Rotular valores contíguos: Tokens de valor/palavras de um campo devem ser:
    • A sequência consecutiva em ordem natural de leitura sem intercalação com outros campos
    • Em uma região que não abrange outros campos
  • Dados representativos: os valores em casos de treinamento devem ser diversos e representativos. Por exemplo, se um campo for denominado data, os valores desse campo deverão ser uma data. O valor sintético, como uma cadeia de caracteres aleatória, pode afetar o desempenho do modelo.

Limitações atuais

  • O modelo neural personalizado não reconhece valores divididos entre limites de página.
  • Os tipos de campos neurais personalizados sem suporte são ignorados se um conjunto de dados rotulado para modelos de template personalizados for usado para treinar um modelo neural personalizado.
  • Os modelos neural personalizados são limitados a 20 operações de compilação por mês para versões 3.x. Abra uma solicitação de suporte se você precisar aumentar esse limite. Para obter mais informações, consulte Cotas e limites do serviço de Informação de Documentos.

Treinando um modelo

Modelos neurais personalizados estão disponíveis nos modelos v3.0 e posteriores.

Tipo de documento API REST . Modelos de rótulo e teste
Documento personalizado Informação de Documentos 3.1 SDK da Informação de Documentos Estúdio da Informação de Documentos

A operação Build para treinar o modelo dá suporte a uma nova propriedade buildMode, para treinar um modelo neural personalizado, defina o buildMode para neural.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-11-30

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}
https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}
https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Cobrança

Com a versão v4.0 2024-11-30 (GA), você pode treinar seu modelo neural personalizado por períodos maiores que os 30 minutos padrão. As versões anteriores foram limitadas a 30 minutos por instância de treinamento, com um total de 20 instâncias de treinamento gratuitas por mês. Com a versão v4.0 2024-11-30 (GA), você pode receber 10 horas de treinamento de modelo gratuito e treinar um modelo por até 10 horas.

Você pode optar por gastar todas as 10 horas gratuitas em um único build com um grande conjunto de dados ou utilizá-lo em vários builds ajustando o valor máximo de duração da operação build especificando maxTrainingHours:

POST https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-11-30

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  ...,
  "maxTrainingHours": 10
}

Importante

  • Se você quiser treinar modelos neurais adicionais ou treinar modelos por um período de tempo mais longo que exceda 10 horas, os encargos de cobrança serão aplicados. Para obter detalhes sobre os encargos de cobrança, consulte a página de preços.
  • Você pode aceitar esse serviço de treinamento pago definindo o maxTrainingHours como o número máximo de horas desejado. As chamadas à API sem orçamento, mas com o maxTrainingHours definido como mais de 10 horas falharão.
  • Cada build leva um tempo diferente dependendo do tipo e do tamanho do conjunto de dados de treinamento. A cobrança é calculada pelo tempo real gasto treinando o modelo neural com um mínimo de 30 minutos por trabalho de treinamento.
  • Este recurso de treinamento pago permite que você treine conjuntos de dados maiores por durações maiores com flexibilidade nas horas de treinamento.

GET /documentModels/{myCustomModel}
{
  "modelId": "myCustomModel",
  "trainingHours": 0.23,
  "docTypes": { ... },
  ...
}

Observação

Para versões do Document Intelligence v3.1 (2023-07-31) e v3.0 (2022-08-31), o treinamento pago do modelo neural personalizado não está habilitado. Para as duas versões mais antigas, há um máximo de 30 minutos de duração de treinamento por modelo. Se você quiser treinar mais de 20 instâncias de modelo, pode criar um tíquete de suporte do Azure para aumentar o limite de treinamento.

Cobrança

Para versões v3.1 (2023-07-31) and v3.0 (2022-08-31) da Informação de Documentos, você obtém um máximo de 30 minutos de duração de treinamento por modelo e um máximo de 20 treinamentos gratuitamente por mês. Se você quiser treinar mais de 20 instâncias de modelo, pode criar um tíquete de suporte do Azure para aumentar o limite de treinamento. Para o tíquete de suporte do Azure, insira no campo summary: Increase Document Intelligence custom neural training (TPS) limit.

Importante

  • Ao aumentar o limite de treinamento, duas sessões personalizadas de treinamento neural serão consideradas como uma hora de treinamento. Para obter mais informações sobre os preços para aumentar o número de sessões de treinamento, confira* a página de preços.
  • O tíquete de suporte do Azure para o aumento do limite de treinamento só pode ser aplicado no nível do recurso, não no nível de assinatura. Você pode solicitar um aumento de limite de treinamento para um único recurso do Informação de Documentos especificando sua ID de recurso e região no tíquete de suporte.

Se você deseja treinar modelos por períodos maiores que 30 minutos, oferecemos suporte para treinamento pago com a versão v4.0 2024-11-30 (GA). Ao usar a versão mais recente, você poderá treinar seu modelo por mais tempo para processar documentos maiores. Para obter mais informações sobre treinamento pago, consulte Cobrança v4.0.

Cobrança

Para versões v3.1 (2023-07-31) and v3.0 (2022-08-31) da Informação de Documentos, você obtém um máximo de 30 minutos de duração de treinamento por modelo e um máximo de 20 treinamentos gratuitamente por mês. Se você quiser treinar mais de 20 instâncias de modelo, pode criar um tíquete de suporte do Azure para aumentar o limite de treinamento. Para o tíquete de suporte do Azure, insira no campo summary: Increase Document Intelligence custom neural training (TPS) limit.

Importante

  • Ao aumentar o limite de treinamento, duas sessões personalizadas de treinamento neural serão consideradas como uma hora de treinamento. Para obter mais informações sobre os preços para aumentar o número de sessões de treinamento, confira a página de preços.
  • O tíquete de suporte do Azure para o aumento do limite de treinamento só pode ser aplicado no nível do recurso, não no nível de assinatura. Você pode solicitar um aumento de limite de treinamento para um único recurso do Informação de Documentos especificando sua ID de recurso e região no tíquete de suporte.

Se você quiser treinar modelos por mais de 30 minutos, damos suporte ao treinamento pago com nossa versão v4.0 (2024-11-30), mais recente. Ao usar a versão mais recente, você poderá treinar seu modelo por mais tempo para processar documentos maiores. Para obter mais informações sobre treinamento pago, consulte Cobrança v4.0.

Próximas etapas

Saiba como criar e compor modelos personalizados: