Распознавание говорящего

Статья
07/19/2023

Служба ИИ Azure — распознавание говорящего службы "Речь" предоставляет алгоритмы, которые проверяют и определяют динамиков по их уникальным характеристикам голоса. Распознавание говорящего используется для ответа на вопрос "кто говорит?". Подробнее.

У голоса есть уникальные характеристики, которые моно соотнести с отдельным пользователем. Мы предоставляем API проверки говорящего и API идентификации говорящего для двух основных приложений технологий распознавания говорящего.

Проверка говорящего

Проверка говорящего может быть как зависимой, так и независимой от текста. Проверка, зависимая от текста, означает, что говорящие должны выбрать ту же парольную фразу, которая будет использоваться на этапах регистрации и проверки. Проверка содержимого речи и голосовой подписи упрощает сценарий многофакторной проверки. Независимая от текста проверка означает, что говорящие могут говорить на повседневном языке в фразах регистрации и проверки.

Проверка зависимого от текста говорящего

На этапе регистрации говорящего голос говорящего записывается путем произнесения парольной фразы из набора предопределенных фраз. Голосовые функции извлекаются из аудиозаписи для формирования уникальной голосовой подписи при распознавании выбранной парольной фразы. Вместе для проверки говорящего будут использоваться подпись голоса и парольная фраза.

На этапе проверки идентификатор, связанный с проверяемой личностью, отправляется в API проверки говорящего. Служба проверки говорящего извлекает голосовые функции и парольную фразу из записи входной речи. Затем он сравнивает голосовые функции и парольную фразу с профилем регистрации соответствующего говорящего.

Ответ возвращает значения "Принять" или "Отклонить" с оценкой сходства в диапазоне от 0 до 1. Ответ "Принять" или "Отклонить" — это результат, объединяющий результат проверки говорящего и результат распознавания речи, в то время как оценка сходства измеряет только сходство голоса. Мы возвращаем "Принять", если результат распознавания речи соответствует фразе регистрации, а оценка подобия голоса больше или равна 0,5. Однако результат должен определяться на основе сценария и других используемых факторов проверки. Мы рекомендуем поэкспериментировать с собственными данными и определить пороговое значение, чтобы переопределить ответы "Принять" или "Отклонить".

В текущей версии API проверки говорящего, зависящего от текста, мы предоставляем 10 фраз на английском языке для говорящих на выбор.

Я собираюсь сделать ему предложение, от него он не может отказаться.
Хьюстон у нас была проблема.
Мой голос мой паспорт проверить меня.
Яблочный сок по вкусу смешно после зубной пасты.
Вы можете войти без пароля.
Вы можете активировать систему безопасности прямо сейчас.
Мой голос сильнее паролей.
Мой пароль не является вашим делом.
Мое имя вам неизвестно.
Будьте собой все остальные уже приняты"

Вы можете создать собственные парольные фразы, отправляя отдельные запросы в API проверки независимо от текста говорящего и API преобразования речи в текст. Объединяя результат проверки говорящего и результат распознавания речи, можно определить личность говорящего.

Интерфейсы API не предназначены для определения того, откуда исходит звук: от реального пользователя, от имитации или записи зарегистрированного говорящего. Создание случайных фраз для чтения говорящего считается эффективным для предотвращения атак на воспроизведение.

Проверка независимой динамики текста

Проверка говорящего также может быть независимой от текста, что означает, что нет ограничений на то, что говорящий говорит в аудио.

На этапе регистрации голосовые функции извлекаются из звука говорящего, чтобы сформировать уникальную голосовую подпись.

На этапе проверки звук и идентификатор, связанные с проверяемой личностью, отправляются в API проверки говорящего. Служба проверки говорящего извлекает голосовые функции из записи входной речи. Затем он сравнивает голосовые функции с подписью голоса в профиле регистрации соответствующего говорящего.

Ответ возвращает значения "Принять" или "Отклонить" с оценкой сходства в диапазоне от 0 до 1. Ответ "Принять" возвращается, если оценка сходства больше или равна 0,5. Однако результат должен определяться на основе сценария и других используемых факторов проверки. Мы рекомендуем поэкспериментировать с собственными данными и определить пороговое значение, чтобы переопределить ответ "Принять" или "Отклонить".

Интерфейсы API не предназначены для определения того, откуда исходит звук: от реального пользователя, от имитации или записи зарегистрированного говорящего.

Идентификация говорящего

Идентификация говорящего — это задача определения личности неизвестного голоса среди набора выступающих-кандидатов. API идентификации говорящего возвращает список "лучших совпадений" на основе оценок сходства по предоставленному списку идентификаторов. API идентификации говорящего не зависит от текста, так как он не сравнивает то, что было сказано при регистрации и распознавании.

Текстовая идентификация независимого говорящего

Регистрация для идентификации говорящего не зависит от текста, то есть не важно, что именно говорит пользователь в аудиозаписи. Парольная фраза не требуется. На этапе регистрации записывается голос говорящего и извлекаются голосовые характеристики для формирования уникальной голосовой подписи.

На этапе идентификации служба идентификации говорящего извлекает голосовые характеристики из записи речи. Затем он сравнивает функции с голосовыми подписями в данных регистрации указанного списка выступающих (до 50 потенциальных ораторов в каждом запросе). Ответ включал один идентифицированный идентификатор и пять идентификаторов с наивысшим рейтингом с оценками подобия в диапазоне от 0 до 1. Идентифицированный идентификатор определяется на основе оценки сходства наиболее подходящего говорящего. Если ни один из выступающих-кандидатов не возвращает оценку подобия больше или равно 0,5, ответ возвращает строку, равную нулю, представляющую "совпадение не найдено". Однако результат должен определяться на основе вашего сценария и других используемых факторов. Рекомендуется поэкспериментировать с данными и определить пороговое значение, чтобы переопределить значение по умолчанию "совпадение или нет".

См. также:

Что такое распознавание говорящего?

Поделиться через