Dicas para criar conjuntos de dados rotulados
Este artigo destaca os melhores métodos para rotular conjuntos de dados de modelo personalizado no Document Intelligence Studio. A etiquetagem de documentos pode ser demorada quando você tem um grande número de etiquetas, documentos longos ou documentos com estrutura variável. Estas dicas devem ajudá-lo a rotular documentos de forma mais eficiente.
Vídeo: Práticas recomendadas para rótulos personalizados
O vídeo a seguir é a segunda de duas apresentações destinadas a ajudá-lo a criar modelos personalizados com maior precisão (a primeira apresentação explora Como criar um conjunto de dados equilibrado).
Examinamos as melhores práticas para rotular os documentos selecionados. Com rotulagem semanticamente relevante e consistente, você deve ver uma melhoria no desempenho do modelo.
Pesquisar
O Studio agora inclui uma caixa de pesquisa para instâncias em que você sabe que precisa encontrar palavras específicas para rotular, mas simplesmente não sabe onde localizá-las no documento. Basta procurar a palavra ou frase e navegar até a seção específica do documento para rotular a ocorrência.
Tabelas de etiquetas automáticas
As tabelas podem ser difíceis de rotular, quando têm muitas linhas ou texto denso. Se a tabela de layout extrair o resultado que você precisa, basta usar esse resultado e ignorar o processo de rotulagem. Nos casos em que a tabela de layout não é exatamente o que você precisa, você pode começar gerando o campo de tabela a partir das extrações de layout de valores. Comece selecionando o ícone da tabela na página e selecione no botão de etiqueta automática. Em seguida, você pode editar os valores conforme necessário. Atualmente, a etiqueta automática suporta apenas tabelas de página única.
Selecionar Shift
Ao rotular uma grande extensão de texto, em vez de marcar cada palavra na extensão, mantenha pressionada a tecla shift enquanto seleciona as palavras para acelerar a rotulagem e garantir que você não perca nenhuma palavra na extensão do texto.
Rotulagem de regiões
Uma segunda opção para rotular extensões maiores de texto é usar o rótulo de região. Quando a rotulagem de região é usada, os OCR
resultados são preenchidos no valor no momento do treinamento. A diferença entre a seleção de turnos e a rotulagem de região está apenas no feedback visual que a abordagem de rotulagem de turno fornece.
Campos de sobreposição de rótulos
Há suporte para campos sobrepostos para campos e células de tabela. Se você espera que os resultados da análise contenham campos sobrepostos, adicione pelo menos uma amostra ao conjunto de dados de treinamento com as sobreposições de campo específicas rotuladas. Para rotular um campo sobreposto, use o recurso de rotulagem de região para selecionar as regiões de cada campo. São suportadas sobreposições completas e parciais. Qualquer palavra no documento só pode ser rotulada para dois campos.
Subtipos de campo
Ao criar um campo, selecione o subtipo certo para minimizar o pós-processamento, por exemplo, selecione a dmy
opção de datas para extrair os valores em um dd-mm-yyyy
formato.
Próximos passos
Saiba mais sobre etiquetagem personalizada:
Saiba mais sobre modelos de modelo personalizados: