Modelo de classificação personalizado do Document Intelligence

Artigo
12/12/2024

Este conteúdo aplica-se a: v4.0 (GA) | Versão anterior: v3.1 (GA)

Este conteúdo aplica-se a: v3.1 (GA) | Última versão: v4.0 (GA)

Importante

O v4.0 2024-11-30 (GA) modelo de classificação personalizado da API não dividirá documentos por padrão durante o processo de análise.
Você precisa definir explicitamente a splitMode propriedade como auto para preservar o comportamento de versões anteriores. O padrão para splitMode é none.
Se o arquivo de entrada contiver vários documentos, você precisará habilitar a divisão definindo como splitMode auto.

O Azure AI Document Intelligence é um serviço de IA do Azure baseado na nuvem que lhe permite criar soluções inteligentes de processamento de documentos. As APIs de inteligência de documentos analisam imagens, PDFs e outros arquivos de documentos para extrair e detetar vários elementos semânticos, de layout, de estilo e de conteúdo.

Os modelos de classificação personalizados são tipos de modelo de aprendizagem profunda que combinam recursos de layout e linguagem para detetar e identificar com precisão os documentos que você processa em seu aplicativo. Os modelos de classificação personalizados executam a classificação de um arquivo de entrada uma página de cada vez para identificar os documentos dentro e também podem identificar vários documentos ou várias instâncias de um único documento dentro de um arquivo de entrada.

Capacidades do modelo

Nota

Os modelos de classificação personalizada v4.0 2024-11-30 (GA) suportam treinamento incremental. Você pode adicionar novos exemplos a classes existentes ou adicionar novas classes fazendo referência a um classificador existente.
O modelo de classificação personalizada v3.1 2023-07-31 (GA) não suporta cópia de modelo. Para usar o recurso de cópia do modelo, treine o modelo usando o modelo mais recente v4.0 GA.

Os modelos de classificação personalizados podem analisar documentos de um ou vários arquivos para identificar se algum dos tipos de documentos treinados está contido em um arquivo de entrada. Aqui estão os cenários suportados atualmente:

Um único ficheiro que contém um tipo de documento, como um formulário de pedido de empréstimo.
Um único arquivo contendo vários tipos de documentos. Por exemplo, um pacote de pedido de empréstimo que contém um formulário de pedido de empréstimo, recibo de pagamento e extrato bancário.
Um único arquivo contendo várias instâncias do mesmo documento. Por exemplo, uma coleção de faturas digitalizadas.

✔️ O treinamento de um classificador personalizado requer pelo menos two classes distintas e um mínimo de amostras de five documentos por classe. A resposta do modelo contém os intervalos de páginas para cada uma das classes de documentos identificados.

✔️ O número máximo permitido de aulas é 1,000. O número máximo permitido de amostras de documentos por classe é 100.

O modelo classifica cada página do documento de entrada, a menos que especificado, para uma das classes no conjunto de dados rotulado. Você também pode especificar os números de página a serem analisados no documento de entrada. Para definir o limite para seu aplicativo, use a pontuação de confiança da resposta.

Formação incremental

Com modelos personalizados, você precisa manter o acesso ao conjunto de dados de treinamento para atualizar seu classificador com novas amostras para uma classe existente ou adicionar novas classes. Os modelos de classificadores agora oferecem suporte a treinamento incremental, onde você pode fazer referência a um classificador existente e acrescentar novas amostras para uma classe existente ou adicionar novas classes com amostras. O treinamento incremental permite cenários em que a retenção de dados é um desafio e o classificador precisa ser atualizado para se alinhar às necessidades de negócios em constante mudança. O treinamento incremental é suportado com modelos treinados com a versão v4.0 2024-11-30 (GA)API.

Importante

O treinamento incremental só é suportado com modelos treinados com a mesma versão da API. Se você estiver tentando estender um modelo, use a versão da API com a qual o modelo original foi treinado para estender o modelo. O treinamento incremental só é suportado com a versão da API v4.0 2024-11-30 (GA) ou posterior.

O treinamento incremental requer que você forneça a ID do modelo original como o baseClassifierId. Consulte o treinamento incremental para saber mais sobre como usar o treinamento incremental.

Suporte a tipo de documento do Office

Agora você pode treinar classificadores para reconhecer tipos de documentos em vários formatos, incluindo PDF, imagens, Word, PowerPoint e Excel. Ao montar seu conjunto de dados de treinamento, você pode adicionar documentos de qualquer um dos tipos suportados. O classificador não exige que você rotule explicitamente tipos específicos. Como prática recomendada, certifique-se de que seu conjunto de dados de treinamento tenha pelo menos uma amostra de cada formato para melhorar a precisão geral do modelo.

Comparar classificação personalizada e modelos compostos

Um modelo de classificação personalizado pode substituir um modelo composto em alguns cenários, mas há algumas diferenças a serem observadas:

Funcionalidade	Processo de classificação personalizado	Processo de modelo composto
Analise um único documento de tipo desconhecido pertencente a um dos tipos treinados para processamento de modelos de extração.	● Requer várias chamadas. ● Chame o modelo de classificação com base na classe do documento. Esta etapa permite uma verificação baseada em confiança antes de invocar a análise do modelo de extração. ● Invoque o modelo de extração.	● Requer uma única chamada para um modelo composto contendo o modelo correspondente ao tipo de documento de entrada.
Analise um único documento de tipo desconhecido pertencente a vários tipos treinados para processamento de modelos de extração.	●Requer várias chamadas. ● Faça uma chamada para o classificador que ignora documentos que não correspondem a um tipo designado para extração. ● Invoque o modelo de extração.	● Requer uma única chamada para um modelo composto. O serviço seleciona um modelo personalizado dentro do modelo composto com a correspondência mais alta. ● Um modelo composto não pode ignorar documentos.
Analise um arquivo contendo vários documentos de tipo conhecido ou desconhecido pertencentes a um dos tipos treinados para processamento de modelos de extração.	● Requer várias chamadas. ● Chame o modelo de extração para cada documento identificado no arquivo de entrada. ● Invoque o modelo de extração.	● Requer uma única chamada para um modelo composto. ● O modelo composto invoca o modelo de componente uma vez na primeira instância do documento. ●Os restantes documentos são ignorados.

Suporte de idiomas

Atualmente, os modelos de classificação suportam apenas documentos em inglês.

Os modelos de classificação podem agora ser formados em documentos de diferentes línguas. Consulte os idiomas suportados para obter uma lista completa.

Requisitos de entrada

Formatos de ficheiro suportados:

Modelo	PDF	Imagem: `jpeg/jpg`, `png`, `bmp`, `tiff`, `heif`	Microsoft Office: Word (docx), Excel (xlxs), PowerPoint (pptx)
Lida	✔	✔	✔
Esquema	✔	✔	✔
Documento Geral	✔	✔
Pré-criado	✔	✔
Extração personalizada	✔	✔
Classificação personalizada	✔	✔	✔ (não suportado no estúdio)

Para obter melhores resultados, forneça cinco fotos nítidas ou digitalizações de alta qualidade por tipo de documento.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.
Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a um texto de cerca 8de -ponto a 150 pontos por polegada (DPI).
Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para treinamento de modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1G-MB para o modelo neural.
Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é de 2 GB com um máximo de 25.000 páginas.

Divisão de documentos

Quando você tem mais de um documento em um arquivo, o classificador pode identificar os diferentes tipos de documento contidos no arquivo de entrada. A resposta do classificador contém os intervalos de páginas para cada um dos tipos de documentos identificados contidos em um arquivo. Essa resposta pode incluir várias instâncias do mesmo tipo de documento.

A analyze operação agora inclui uma splitMode propriedade que lhe dá controle granular sobre o comportamento de divisão.

Para tratar todo o arquivo de entrada como um único documento para classificação, defina splitMode como none. Quando você faz isso, o serviço retorna apenas uma classe para todo o arquivo de entrada.
Para classificar cada página do arquivo de entrada, defina splitMode como perPage. O serviço tenta classificar cada página como um documento individual.
Defina o splitMode como auto e o serviço identifica os documentos e os intervalos de páginas associados.

Melhores práticas

Os modelos de classificação personalizados exigem um mínimo de cinco amostras por classe para treinar. Se as classes forem semelhantes, adicionar amostras de treinamento extras melhora a precisão do modelo.

O classificador tenta atribuir cada documento a uma das classes, se você espera que o modelo veja tipos de documento que não estão nas classes que fazem parte do conjunto de dados de treinamento, você deve planejar definir um limite na pontuação de classificação ou adicionar algumas amostras representativas dos tipos de documento a uma "other" classe. Adicionar uma "other" classe garante que documentos desnecessários não afetem a qualidade do classificador.

Formar um modelo

Os modelos de classificação personalizados são suportados pela API v4.0 2024-11-30 (GA). O Document Intelligence Studio fornece uma interface de usuário sem código para treinar interativamente um classificador personalizado. Siga o guia de como começar.

Ao usar a API REST, se você organizar seus documentos por pastas, poderá usar a azureBlobSource propriedade da solicitação para treinar um modelo de classificação.


https://{endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview

{
  "classifierId": "demo2.1",
  "description": "",
  "docTypes": {
    "car-maint": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/car-maint/"
            }
    },
    "cc-auth": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/cc-auth/"
            }
    },
    "deed-of-trust": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/deed-of-trust/"
            }
    }
  }
}

https://{endpoint}/formrecognizer/documentClassifiers:build?api-version=2023-07-31

{
  "classifierId": "demo2.1",
  "description": "",
  "docTypes": {
    "car-maint": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/car-maint/"
            }
    },
    "cc-auth": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/cc-auth/"
            }
    },
    "deed-of-trust": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/deed-of-trust/"
            }
    }
  }
}

Como alternativa, se você tiver uma lista simples de arquivos ou planeja usar apenas alguns arquivos selecionados dentro de cada pasta para treinar o modelo, poderá usar a azureBlobFileListSource propriedade para treinar o modelo. Esta etapa requer um file list formato de linhas JSON. Para cada aula, adicione um novo arquivo com uma lista de arquivos a serem enviados para treinamento.

{
  "classifierId": "demo2",
  "description": "",
  "docTypes": {
    "car-maint": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/car-maint.jsonl"
      }
    },
    "cc-auth": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/cc-auth.jsonl"
      }
    },
    "deed-of-trust": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/deed-of-trust.jsonl"
      }
    }
  }
}

Por exemplo, a lista car-maint.jsonl de ficheiros contém os seguintes ficheiros.

{"file":"classifier/car-maint/Commercial Motor Vehicle - Adatum.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Fincher.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Lamna.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Liberty.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Trey.pdf"}

Substituir um modelo

Nota

O modelo de classificação personalizada v4.0 2024-11-30 (GA) suporta a substituição de um modelo in-loco.

Agora você pode atualizar a classificação personalizada in-loco. Substituir diretamente o modelo perderia a capacidade de comparar a qualidade do modelo antes de decidir substituir o modelo existente. A substituição de modelo é permitida quando a allowOverwrite propriedade é especificada explicitamente no corpo da solicitação. É impossível recuperar o modelo original substituído uma vez que essa ação é executada.



{
  "classifierId": "existingClassifierName",
  "allowOverwrite": true,  // Default=false
  ...
}

Copiar um modelo

Nota

O modelo de classificação personalizada v4.0 2024-11-30 (GA) suporta a cópia de um modelo de e para qualquer uma das seguintes regiões:

E.U.A. Leste
Oeste dos EUA2
Europa Ocidental

Use a API REST ou o Document Intelligence Studio para copiar um modelo para outra região.

Gerar solicitação de autorização de cópia

A solicitação HTTP a seguir obtém autorização de cópia do recurso de destino. Você precisa inserir o ponto de extremidade e a chave do recurso de destino como cabeçalhos.

POST https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers:authorizeCopy?api-version=2024-11-30
Ocp-Apim-Subscription-Key: {<your-key>}

Corpo do pedido

{
  "classifierId": "targetClassifier",
  "description": "Target classifier description"
}

Você recebe um código de 200 resposta com o corpo da resposta que contém a carga JSON necessária para iniciar a cópia.

{
  "targetResourceId": "/subscriptions/targetSub/resourceGroups/targetRG/providers/Microsoft.CognitiveServices/accounts/targetService",
  "targetResourceRegion": "targetResourceRegion",
  "targetClassifierId": "targetClassifier",
  "targetClassifierLocation": "https://targetEndpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/targetClassifier",
  "accessToken": "accessToken",
  "expirationDateTime": "timestamp"
}

Iniciar operação de cópia

A solicitação HTTP a seguir inicia a operação de cópia no recurso de origem. Você precisa inserir o ponto de extremidade e a chave do seu recurso de origem como url e cabeçalho. Observe que a URL da solicitação contém a ID do classificador do classificador de origem que você deseja copiar.

POST {endpoint}/documentintelligence/documentClassifiers/{classifierId}:copyTo?api-version=2024-11-30
Ocp-Apim-Subscription-Key: {<your-key>}

O corpo do seu pedido é a resposta do passo anterior.

{
  "targetResourceId": "/subscriptions/targetSub/resourceGroups/targetRG/providers/Microsoft.CognitiveServices/accounts/targetService",
  "targetResourceRegion": "targetResourceRegion",
  "targetClassifierId": "targetClassifier",
  "targetClassifierLocation": "https://targetEndpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/targetClassifier",
  "accessToken": "accessToken",
  "expirationDateTime": "timestamp"
}

Modelo de resposta

Analise um arquivo de entrada com o modelo de classificação de documentos.

https://{endpoint}/documentintelligence/documentClassifiers/{classifier}:analyze?api-version=2024-02-29-preview

A v4.0 2024-11-30 (GA) API permite especificar páginas para analisar a partir do documento de entrada usando o pages parâmetro query na solicitação.

https://{service-endpoint}/formrecognizer/documentClassifiers/{classifier}:analyze?api-version=2023-07-31

A resposta contém os documentos identificados com os intervalos de páginas associados na secção de documentos da resposta.

{
  ...

    "documents": [
      {
        "docType": "formA",
        "boundingRegions": [
          { "pageNumber": 1, "polygon": [...] },
          { "pageNumber": 2, "polygon": [...] }
        ],
        "confidence": 0.97,
        "spans": []
      },
      {
        "docType": "formB",
        "boundingRegions": [
          { "pageNumber": 3, "polygon": [...] }
        ],
        "confidence": 0.97,
        "spans": []
      }, ...
    ]
  }

Próximos passos

Aprenda a criar modelos de classificação personalizados:

Criar um modelode classificação personalizado Visão geral dos modelos personalizados

Partilhar via

Modelo de classificação personalizado do Document Intelligence

Capacidades do modelo

Formação incremental

Suporte a tipo de documento do Office

Comparar classificação personalizada e modelos compostos

Suporte de idiomas

Requisitos de entrada

Divisão de documentos

Melhores práticas

Formar um modelo

Substituir um modelo

Copiar um modelo

Gerar solicitação de autorização de cópia

Iniciar operação de cópia

Modelo de resposta

Próximos passos

Comentários

Recursos adicionais