Обучение модели пользовательский анализ текста для здоровья
Обучение — это процесс, в ходе которого модель обучается по вашим данным с метками. После завершения обучения вы сможете просмотреть метрики оценки эффективности модели, чтобы определить, нуждается ли модель в усовершенствовании.
Чтобы обучить модель, необходимо запустить задание обучения. Только успешно завершенные задания создают модель. Срок действия заданий обучения истекает через семь дней. По истечении этого периода вы не сможете получить сведения о задании. Если задание обучения было завершено успешно и создало модель, это не повлияет на созданную модель. Вы можете выполнять только одно задание обучения и не можете запускать одновременно с ним другие задания в том же проекте.
Время обучения может составлять от нескольких минут (если число документов невелико) до нескольких часов в зависимости от размера набора данных и сложности схемы.
Необходимые компоненты
- Успешно созданный проект с настроенной учетной записью хранилища BLOB-объектов Azure
- Текстовые данные, отправленные в учетную запись хранения.
- Помеченные данные
Дополнительные сведения см. в статье о жизненном цикле разработки проекта.
Разделение данных
Перед началом процесса обучения предоставленные в проекте документы с метками делятся на обучающий набор и тестовый набор. Каждый из них выполняет свою роль. Обучающий набор используется при обучении модели, то есть по нему модель изучает сущности с метками и диапазоны текста, которые требуется извлечь как сущности. Тестовый набор сохраняется в тайне от модели на период обучения, а применяется только во время оценки. После успешного обучения полученная модель используется для прогнозирования на основе документов в тестовом наборе. На основе этих прогнозов вычисляются метрики оценки. Обучение и оценка моделей предназначены только для новых сущностей с компонентами обучения; таким образом, Анализ текста для сущностей работоспособности исключаются из обучения и оценки моделей из-за того, что они являются сущностями с предварительно созданными компонентами. Рекомендуется убедиться, что все помеченные сущности достаточно представлены как в наборе обучения, так и в тестовом наборе.
Пользовательская Анализ текста для работоспособности поддерживает два метода разделения данных:
- Автоматическое разделение набора тестирования на основе обучающих данных: система разбивает помеченные данные между наборами обучения и тестирования в соответствии с выбранными процентными значениями. Мы рекомендуем использовать 80 % набора данных для обучения и 20 % для тестирования.
Примечание.
Если вы выберете вариант Автоматическое выделение тестового набора из обучающих данных, выбранные процентные доли будут применяться только для разделения данных в обучающем наборе.
- Разделение обучающих и тестовых данных вручную: этот метод позволяет самостоятельно определить, какие документы с метками должны входить в оба набора. Этот шаг включается только в том случае, если вы добавили документы в тестовый набор на этапе маркировки данных.
Обучение модели
Чтобы начать обучение модели в студии службы "Язык", сделайте следующее:
Выберите элемент Задания обучения в меню слева.
В верхнем меню выберите Запустить задание на обучение.
Щелкните Train a new model (Обучить новую модель) и введите имя модели в текстовое поле. Можно также перезаписать существующую модель. Для этого выберите соответствующий параметр и укажите модель, которую требуется перезаписать, в раскрывающемся меню. Перезапись обученной модели необратима, но это не повлияет на развернутые модели до тех пор, пока вы не развернете новую модель.
Выберите метод разделения данных. Вы можете выбрать вариант Automatically splitting the testing set from training data (Автоматическое выделение тестового набора из обучающих данных), при котором система разделит данные с метками на обучающий и тестовый наборы в указанной вами пропорции. Или можно использовать разделение данных обучения и тестирования вручную, этот параметр включен только в том случае, если вы добавили документы в набор тестирования. См . метки данных и обучение модели для получения сведений о разбиение данных.
Нажмите кнопку Обучить.
Если выбрать идентификатор задания обучения из списка, на боковой панели появится область, где можно проверить ход обучения, состояние задания и другие сведения для этого задания.
Примечание.
- Модели будут создаваться только с помощью успешно завершенных заданий обучения.
- Обучение может занять от нескольких минут до нескольких часов в зависимости от размера данных с метками.
- В каждый момент времени может выполняться только одно задание на обучение. Нельзя запустить другое задание обучения в том же проекте до тех пор, пока не будет завершено выполнение задания.
Отмена задания обучения
Чтобы отменить задание обучения в Language Studio, перейдите на страницу Задания обучения. Выберите задание обучения, которое вы хотите отменить, и выберите "Отмена " в верхнем меню.
Следующие шаги
После завершения обучения вы сможете просмотреть производительность модели, чтобы при необходимости улучшить модель. Когда вы будете удовлетворены моделью, ее можно будет развернуть, сделав доступной для извлечения сущностей из текста.