Noções básicas sobre reconhecimento de fala e sintetização de voz

2 minutos

O reconhecimento de fala usa a palavra falada e a converte em dados que podem ser processados, muitas vezes transcrevendo-a em texto. As palavras faladas poderão estar no formato de uma voz gravada em um arquivo de áudio ou em um áudio ao vivo de um microfone. Os padrões de Fala do áudio serão analisados para determinar padrões reconhecíveis que serão transformados em palavras. Para fazer isso, o software normalmente usa vários modelos, incluindo:

Um modelo acústico que converte o sinal de áudio em fonemas (representações de sons específicos).
Um modelo de linguagem que transforma os fonemas em palavras, geralmente usando um algoritmo estatístico que prevê a sequência mais provável de palavras com base nos fonemas.

As palavras reconhecidas normalmente são convertidas em texto, que você pode usar para várias finalidades, como:

Fornecer legendas ocultas para vídeos gravados ou ao vivo
Criar uma transcrição de uma chamada telefônica ou de uma reunião
Ditado de anotação automatizada
Determinar a entrada do usuário pretendida para obter um processamento adicional

A síntese de fala trata da vocalização de dados, geralmente convertendo texto em fala. Uma solução de sintetização de voz normalmente requer as seguintes informações:

O texto a ser falado
A voz a ser usada para vocalizar a fala

Para sintetizar uma voz, o sistema normalmente cria tokens do texto com o objetivo de dividi-lo em palavras individuais e atribuir sons fonéticos a cada palavra. Ele então interrompe a transcrição fonética em unidades prosódicas (como frases, cláusulas ou sentenças) para criar fonemas que serão convertidos em formato de áudio. Esses fonemas são, então, sintetizados como áudio, e podem ser atribuídos a uma voz, velocidade de fala, tom e volume específicos.

Será possível usar a saída de sintetização de voz para diversas finalidades, incluindo:

Gerar respostas faladas para a entrada do usuário
Criar menus de voz para sistemas de smartphone
Ler mensagens de email ou texto em voz alta em cenários de mãos livres
Difundir comunicados em locais públicos, como estações ferroviárias ou aeroportos

Noções básicas sobre reconhecimento de fala e sintetização de voz

Comentários