Partilhar via


Dicas para criar conjuntos de dados rotulados

Este conteúdo aplica-se a:marca de verificação v4.0 (GA) | Versões anteriores:Marca de verificação azul v3.1 (GA)Marca de verificação azul v3.0 (GA)

Este conteúdo aplica-se a: marca de verificação v3.1 (GA) | Última versão: marca de verificação roxav4.0 (GA) | Versões anteriores: Marca de verificação azul v3.0

Este conteúdo aplica-se a: marca de verificação v3.0 (GA) | Últimas versões:marca de verificação roxa v4.0 (GA)marca de verificação roxa v3.1

Este artigo destaca os melhores métodos para rotular conjuntos de dados de modelo personalizado no Document Intelligence Studio. A etiquetagem de documentos pode ser demorada quando você tem um grande número de etiquetas, documentos longos ou documentos com estrutura variável. Estas dicas devem ajudá-lo a rotular documentos de forma mais eficiente.

Vídeo: Práticas recomendadas para rótulos personalizados

  • O vídeo a seguir é a segunda de duas apresentações destinadas a ajudá-lo a criar modelos personalizados com maior precisão (a primeira apresentação explora Como criar um conjunto de dados equilibrado).

  • Examinamos as melhores práticas para rotular os documentos selecionados. Com rotulagem semanticamente relevante e consistente, você deve ver uma melhoria no desempenho do modelo.

O Studio agora inclui uma caixa de pesquisa para instâncias em que você sabe que precisa encontrar palavras específicas para rotular, mas simplesmente não sabe onde localizá-las no documento. Basta procurar a palavra ou frase e navegar até a seção específica do documento para rotular a ocorrência.

Tabelas de etiquetas automáticas

As tabelas podem ser difíceis de rotular, quando têm muitas linhas ou texto denso. Se a tabela de layout extrair o resultado que você precisa, basta usar esse resultado e ignorar o processo de rotulagem. Nos casos em que a tabela de layout não é exatamente o que você precisa, você pode começar gerando o campo de tabela a partir das extrações de layout de valores. Comece selecionando o ícone da tabela na página e selecione no botão de etiqueta automática. Em seguida, você pode editar os valores conforme necessário. Atualmente, a etiqueta automática suporta apenas tabelas de página única.

Selecionar Shift

Ao rotular uma grande extensão de texto, em vez de marcar cada palavra na extensão, mantenha pressionada a tecla shift enquanto seleciona as palavras para acelerar a rotulagem e garantir que você não perca nenhuma palavra na extensão do texto.

Rotulagem de regiões

Uma segunda opção para rotular extensões maiores de texto é usar o rótulo de região. Quando a rotulagem de região é usada, os OCR resultados são preenchidos no valor no momento do treinamento. A diferença entre a seleção de turnos e a rotulagem de região está apenas no feedback visual que a abordagem de rotulagem de turno fornece.

Campos de sobreposição de rótulos

Há suporte para campos sobrepostos para campos e células de tabela. Se você espera que os resultados da análise contenham campos sobrepostos, adicione pelo menos uma amostra ao conjunto de dados de treinamento com as sobreposições de campo específicas rotuladas. Para rotular um campo sobreposto, use o recurso de rotulagem de região para selecionar as regiões de cada campo. São suportadas sobreposições completas e parciais. Qualquer palavra no documento só pode ser rotulada para dois campos.

Subtipos de campo

Ao criar um campo, selecione o subtipo certo para minimizar o pós-processamento, por exemplo, selecione a dmy opção de datas para extrair os valores em um dd-mm-yyyy formato.

Próximos passos