Поделиться через


Рекомендации. Создание помеченных наборов данных

Это содержимое относится к: версии 4.0 (GA) | Предыдущие версии:флажоксиняя галочка v3.1 (GA) версии 3.0 (GA) синяя галочка

Пользовательские модели (шаблон и нейронные) требуют помеченного набора данных не менее пяти документов для обучения модели. Качество помеченного набора данных влияет на точность обученной модели. Это руководство поможет вам узнать больше о создании модели с высокой точностью путем сборки различных наборов данных и рекомендаций по маркировке документов.

Общие сведения о компонентах помеченного набора данных

Помеченный набор данных состоит из нескольких файлов:

  • Вы предоставляете набор примеров документов (обычно PDF-файлы или изображения). Для обучения модели требуется как минимум пять документов.

  • Кроме того, процесс маркировки создает следующие файлы:

    • Файл fields.json создается при добавлении первого поля. Существует один fields.json файл для всего набора данных обучения, список полей содержит имя поля и связанные под поля и типы.

    • Студия выполняет каждую из документов с помощью API макета. Ответ макета для каждого примера файлов в наборе данных добавляется как {file}.ocr.json. Ответ макета используется для создания меток полей при метке определенного диапазона текста.

    • {file}.labels.json Файл создается или обновляется при метке поля в документе. Файл метки содержит диапазоны текста и связанных многоугольников из выходных данных макета для каждого диапазона текста, добавляемого пользователем в качестве значения для определенного поля.

Видео: советы и указатели на пользовательские метки

  • Следующее видео является первым из двух презентаций, предназначенных для создания пользовательских моделей с более высокой точностью (вторая презентация проверяет рекомендации по маркировке документов).

  • Мы рассмотрим, как создать сбалансированный набор данных и выбрать нужные документы для маркировки. Этот процесс задает путь к более качественным моделям.

Создание сбалансированного набора данных

Прежде чем приступить к маркировке, рекомендуется ознакомиться с несколькими различными примерами документа, чтобы определить, какие примеры необходимо использовать в наборе данных с метками. Сбалансированный набор данных представляет все типичные варианты, которые вы ожидаете увидеть для документа. Создание сбалансированного набора данных приводит к созданию модели с максимальной возможной точностью. Ниже приведены несколько примеров.

  • Форматы документов: если вы планируете анализировать как цифровые, так и сканированные документы, добавьте несколько примеров каждого типа в обучающий набор данных.

  • Варианты (модель шаблона): рекомендуется разделить набор данных на папки и обучить модель для каждого варианта. Любые варианты, включающие структуру или макет, должны быть разделены на разные модели. Затем можно создать отдельные модели в одну составную модель.

  • Варианты (нейронные модели): если набор данных имеет управляемый набор вариантов, около 15 или меньше, создайте один набор данных с несколькими образцами каждого из различных вариантов для обучения одной модели. Если число вариантов шаблона превышает 15, обучите несколько моделей и создайте их вместе.

  • Таблицы: для документов, содержащих таблицы с переменным числом строк, убедитесь, что обучающий набор данных также представляет документы с разными числами строк.

  • Многостраничные таблицы: если таблицы охватывают несколько страниц, пометка одной таблицы. Добавьте документы в набор данных обучения с ожидаемыми вариантами, представленными — документы с таблицей только на одной странице и документы с таблицей, охватывающими две или более страницы со всеми строками, помеченными.

  • Необязательные поля. Если набор данных содержит документы с необязательными полями, убедитесь, что обучающий набор данных содержит несколько документов с параметрами, представленными.

Начните с идентификации полей

Идентифицируйте все поля, которые вы планируете пометить в наборе данных. Обратите внимание на необязательные поля. Определите поля с метками, которые лучше всего соответствуют поддерживаемым типам.

Используйте следующие рекомендации для определения полей:

  • Для пользовательских нейронных моделей используйте семантические имена для полей. Например, если извлекаемое значение имеет Effective Dateзначение, назовите его effective_date или EffectiveDate не универсальное имя, например date1.

  • В идеале присвойте полям Pascal или верблюдю.

  • Если значение является частью визуально повторяющейся структуры и требуется только одно значение, пометите его как таблицу и извлеките необходимое значение во время последующей обработки.

  • Для табличных полей, охватывающих несколько страниц, определите и примечайте поля в виде одной таблицы.

Примечание.

Пользовательские нейронные модели используют те же формат меток и стратегию, что и модели пользовательских шаблонов. В настоящее время пользовательские нейронные модели поддерживают только подмножество типов полей, поддерживаемых пользовательскими моделями шаблонов.

Возможности модели

Пользовательские нейронные модели в настоящее время поддерживают только пары "ключ-значение", структурированные поля (таблицы) и метки выбора.

Тип модели Поля формы Метки выделения Табличные поля Подпись Область/регион Перекрывающиеся поля
Настраиваемая нейронная модель ✔️Поддержанный ✔️Поддержанный ✔️Поддержанный Не поддерживается ✔️Поддерживается1 ✔️Поддерживается2
Пользовательский шаблон ✔️Поддержанный ✔️Поддержанный ✔️Поддержанный ✔️Поддержанный ✔️Поддержанный Не поддерживается

1 Реализация маркировки регионов отличается от шаблонов и нейронных моделей. Для моделей шаблонов процесс обучения внедряет искусственные данные во время обучения, если текст не найден в регионе с меткой. При использовании нейронных моделей искусственный текст не внедряется и распознанный текст используется как есть.
2 перекрывающихся поля поддерживаются начиная с версии v4.0 2024-11-30 (GA)API. Перекрывающиеся поля имеют некоторые ограничения. Дополнительные сведения см . в перекрывающихся полях.

Табличные поля

Табличные поля (таблицы) поддерживаются с пользовательскими нейронными моделями с версией v4.0 2024-11-30 (GA)API. Модели, обученные с помощью API версии 2022-06-30-preview или более поздней, будут принимать табличные метки и документы, проанализированные с помощью модели с помощью API версии 2022-06-30-preview или более поздней версии, будут создавать табличные поля в выходных данных documents в разделе результата объекта analyzeResult .

Табличные поля поддерживают межстраничные таблицы по умолчанию. Чтобы пометить таблицу, которая охватывает несколько страниц, пометите каждую строку таблицы на разных страницах в одной таблице. Рекомендуется убедиться, что набор данных содержит несколько примеров ожидаемых вариантов. Например, включите оба примера, где вся таблица находится на одной странице и в примерах таблицы, охватывающих две или более страницы.

Табличные поля также полезны при извлечении повторяющихся данных в документе, который не распознается как таблица. Например, повторяющийся раздел об опыте работы в резюме можно пометить и извлечь как табличное поле.

Примечание.

Поле таблицы при извлечении меток в рамках documents раздела ответа. Ответ также содержит tables раздел, содержащий таблицы, извлеченные из документа моделью макета. Если поле помечено как таблицу, найдите поле в разделе документов ответа.

Рекомендации по маркировке

  • Требуются значения меток. Не включайте окружающий текст. Например, при маркировке флажка назовите поле, чтобы указать выбор флажка, например selectionYes , а selectionNo не метку "да" или "нет" в документе.

  • Не предоставляйте значения полей переключения. Значение слов и (или) регионов одного поля должно быть последовательной последовательностью в естественном порядке чтения.

  • Согласованность меток. Если значение отображается в нескольких контекстах документа, последовательно выберите один и тот же контекст в документах, чтобы пометить значение.

  • Визуально повторяющиеся данные. Таблицы поддерживают визуально повторяющиеся группы информации, а не только явные таблицы. Явные таблицы определяются в разделе таблиц проанализированных документов в рамках выходных данных макета и не должны быть помечены как таблицы. Только пометка поля таблицы, если информация визуально повторяется и не определяется как таблица как часть ответа макета. Примером будет повторяющийся раздел о работе резюме.

  • Маркировка регионов (пользовательский шаблон). Маркировка определенных регионов позволяет определить значение, если нет. Если значение является необязательным, убедитесь, что вы оставили несколько примеров документов с регионом, не помеченным. При маркировке регионов не включайте окружающий текст с меткой.

  • Перекрывающиеся поля (настраиваемые нейронные) Пометка поля перекрывается с помощью метки регионов. Убедитесь, что у вас есть по крайней мере пример, описывающий, как поля могут перекрываться в наборе данных обучения.

Следующие шаги