Рекомендации. Создание помеченных наборов данных
Это содержимое относится к: версии 4.0 (GA) | Предыдущие версии: v3.1 (GA) версии 3.0 (GA)
Пользовательские модели (шаблон и нейронные) требуют помеченного набора данных не менее пяти документов для обучения модели. Качество помеченного набора данных влияет на точность обученной модели. Это руководство поможет вам узнать больше о создании модели с высокой точностью путем сборки различных наборов данных и рекомендаций по маркировке документов.
Общие сведения о компонентах помеченного набора данных
Помеченный набор данных состоит из нескольких файлов:
Вы предоставляете набор примеров документов (обычно PDF-файлы или изображения). Для обучения модели требуется как минимум пять документов.
Кроме того, процесс маркировки создает следующие файлы:
Файл
fields.json
создается при добавлении первого поля. Существует одинfields.json
файл для всего набора данных обучения, список полей содержит имя поля и связанные под поля и типы.Студия выполняет каждую из документов с помощью API макета. Ответ макета для каждого примера файлов в наборе данных добавляется как
{file}.ocr.json
. Ответ макета используется для создания меток полей при метке определенного диапазона текста.{file}.labels.json
Файл создается или обновляется при метке поля в документе. Файл метки содержит диапазоны текста и связанных многоугольников из выходных данных макета для каждого диапазона текста, добавляемого пользователем в качестве значения для определенного поля.
Видео: советы и указатели на пользовательские метки
Следующее видео является первым из двух презентаций, предназначенных для создания пользовательских моделей с более высокой точностью (вторая презентация проверяет рекомендации по маркировке документов).
Мы рассмотрим, как создать сбалансированный набор данных и выбрать нужные документы для маркировки. Этот процесс задает путь к более качественным моделям.
Создание сбалансированного набора данных
Прежде чем приступить к маркировке, рекомендуется ознакомиться с несколькими различными примерами документа, чтобы определить, какие примеры необходимо использовать в наборе данных с метками. Сбалансированный набор данных представляет все типичные варианты, которые вы ожидаете увидеть для документа. Создание сбалансированного набора данных приводит к созданию модели с максимальной возможной точностью. Ниже приведены несколько примеров.
Форматы документов: если вы планируете анализировать как цифровые, так и сканированные документы, добавьте несколько примеров каждого типа в обучающий набор данных.
Варианты (модель шаблона): рекомендуется разделить набор данных на папки и обучить модель для каждого варианта. Любые варианты, включающие структуру или макет, должны быть разделены на разные модели. Затем можно создать отдельные модели в одну составную модель.
Варианты (нейронные модели): если набор данных имеет управляемый набор вариантов, около 15 или меньше, создайте один набор данных с несколькими образцами каждого из различных вариантов для обучения одной модели. Если число вариантов шаблона превышает 15, обучите несколько моделей и создайте их вместе.
Таблицы: для документов, содержащих таблицы с переменным числом строк, убедитесь, что обучающий набор данных также представляет документы с разными числами строк.
Многостраничные таблицы: если таблицы охватывают несколько страниц, пометка одной таблицы. Добавьте документы в набор данных обучения с ожидаемыми вариантами, представленными — документы с таблицей только на одной странице и документы с таблицей, охватывающими две или более страницы со всеми строками, помеченными.
Необязательные поля. Если набор данных содержит документы с необязательными полями, убедитесь, что обучающий набор данных содержит несколько документов с параметрами, представленными.
Начните с идентификации полей
Идентифицируйте все поля, которые вы планируете пометить в наборе данных. Обратите внимание на необязательные поля. Определите поля с метками, которые лучше всего соответствуют поддерживаемым типам.
Используйте следующие рекомендации для определения полей:
Для пользовательских нейронных моделей используйте семантические имена для полей. Например, если извлекаемое значение имеет
Effective Date
значение, назовите егоeffective_date
илиEffectiveDate
не универсальное имя, например date1.В идеале присвойте полям Pascal или верблюдю.
Если значение является частью визуально повторяющейся структуры и требуется только одно значение, пометите его как таблицу и извлеките необходимое значение во время последующей обработки.
Для табличных полей, охватывающих несколько страниц, определите и примечайте поля в виде одной таблицы.
Примечание.
Пользовательские нейронные модели используют те же формат меток и стратегию, что и модели пользовательских шаблонов. В настоящее время пользовательские нейронные модели поддерживают только подмножество типов полей, поддерживаемых пользовательскими моделями шаблонов.
Возможности модели
Пользовательские нейронные модели в настоящее время поддерживают только пары "ключ-значение", структурированные поля (таблицы) и метки выбора.
Тип модели | Поля формы | Метки выделения | Табличные поля | Подпись | Область/регион | Перекрывающиеся поля |
---|---|---|---|---|---|---|
Настраиваемая нейронная модель | ✔️Поддержанный | ✔️Поддержанный | ✔️Поддержанный | Не поддерживается | ✔️Поддерживается1 | ✔️Поддерживается2 |
Пользовательский шаблон | ✔️Поддержанный | ✔️Поддержанный | ✔️Поддержанный | ✔️Поддержанный | ✔️Поддержанный | Не поддерживается |
1 Реализация маркировки регионов отличается от шаблонов и нейронных моделей. Для моделей шаблонов процесс обучения внедряет искусственные данные во время обучения, если текст не найден в регионе с меткой. При использовании нейронных моделей искусственный текст не внедряется и распознанный текст используется как есть.
2 перекрывающихся поля поддерживаются начиная с версии v4.0 2024-11-30 (GA)
API. Перекрывающиеся поля имеют некоторые ограничения. Дополнительные сведения см . в перекрывающихся полях.
Табличные поля
Табличные поля (таблицы) поддерживаются с пользовательскими нейронными моделями с версией v4.0 2024-11-30 (GA)
API. Модели, обученные с помощью API версии 2022-06-30-preview или более поздней, будут принимать табличные метки и документы, проанализированные с помощью модели с помощью API версии 2022-06-30-preview или более поздней версии, будут создавать табличные поля в выходных данных documents
в разделе результата объекта analyzeResult
.
Табличные поля поддерживают межстраничные таблицы по умолчанию. Чтобы пометить таблицу, которая охватывает несколько страниц, пометите каждую строку таблицы на разных страницах в одной таблице. Рекомендуется убедиться, что набор данных содержит несколько примеров ожидаемых вариантов. Например, включите оба примера, где вся таблица находится на одной странице и в примерах таблицы, охватывающих две или более страницы.
Табличные поля также полезны при извлечении повторяющихся данных в документе, который не распознается как таблица. Например, повторяющийся раздел об опыте работы в резюме можно пометить и извлечь как табличное поле.
Примечание.
Поле таблицы при извлечении меток в рамках documents
раздела ответа. Ответ также содержит tables
раздел, содержащий таблицы, извлеченные из документа моделью макета. Если поле помечено как таблицу, найдите поле в разделе документов ответа.
Рекомендации по маркировке
Требуются значения меток. Не включайте окружающий текст. Например, при маркировке флажка назовите поле, чтобы указать выбор флажка, например
selectionYes
, аselectionNo
не метку "да" или "нет" в документе.Не предоставляйте значения полей переключения. Значение слов и (или) регионов одного поля должно быть последовательной последовательностью в естественном порядке чтения.
Согласованность меток. Если значение отображается в нескольких контекстах документа, последовательно выберите один и тот же контекст в документах, чтобы пометить значение.
Визуально повторяющиеся данные. Таблицы поддерживают визуально повторяющиеся группы информации, а не только явные таблицы. Явные таблицы определяются в разделе таблиц проанализированных документов в рамках выходных данных макета и не должны быть помечены как таблицы. Только пометка поля таблицы, если информация визуально повторяется и не определяется как таблица как часть ответа макета. Примером будет повторяющийся раздел о работе резюме.
Маркировка регионов (пользовательский шаблон). Маркировка определенных регионов позволяет определить значение, если нет. Если значение является необязательным, убедитесь, что вы оставили несколько примеров документов с регионом, не помеченным. При маркировке регионов не включайте окружающий текст с меткой.
Перекрывающиеся поля (настраиваемые нейронные) Пометка поля перекрывается с помощью метки регионов. Убедитесь, что у вас есть по крайней мере пример, описывающий, как поля могут перекрываться в наборе данных обучения.
Следующие шаги
Обучение пользовательской модели:
Просмотрите ИНТЕРФЕЙСы REST API: