Introdução à Fala no Azure
O Microsoft Azure oferece recursos de reconhecimento de fala e síntese por meio do serviço de Fala de IA do Azure, que dá suporte a muitos recursos, incluindo:
- Conversão de fala em texto
- Conversão de texto em fala
Observação
Este módulo aborda os recursos de conversão de fala em texto e conversão de texto em fala. Um módulo separado aborda a tradução de fala nos serviços de IA do Azure.
Conversão de fala em texto
É possível usar a API de Conversão de Fala em Texto de IA do Azure para executar a transcrição em lote ou em tempo real de um áudio em formato de texto. A fonte de áudio da transcrição poderá ser uma fluxo de áudio em tempo real de um microfone ou um arquivo de áudio.
O modelo usado pela API de conversão de fala em texto será baseado em um Modelo de Linguagem Universal treinado pela Microsoft. Os dados do modelo são de propriedade da Microsoft e foram implantados no Microsoft Azure. O modelo será otimizado para dois cenários: conversação e ditado. Também é possível criar e treinar seus modelos personalizados, incluindo acústica, linguagem e pronúncia, caso os modelos predefinidos da Microsoft não forneçam o que você precisa.
Transcrição em tempo real: A Conversão de Fala em Texto em tempo real permite transcrever texto em transmissões de áudio. Será possível usar uma transcrição em tempo real para apresentações, demonstrações ou qualquer outro cenário em que uma pessoa esteja falando.
Para que a transcrição em tempo real funcione, seu aplicativo deve escutar o áudio de entrada de um microfone ou outra fonte de entrada de áudio, como um arquivo de áudio. O código do aplicativo transmitirá o áudio para o serviço que retornará o texto transcrito.
Transcrição em lote: Nem todos os cenários de conversão de fala em texto serão em tempo real. Você poderá ter gravações de áudio armazenadas em um compartilhamento de arquivo, em um servidor remoto ou até mesmo no armazenamento do Azure. Será possível transmitir arquivos de áudio com um URI de SAS (assinatura de acesso compartilhado) e receber resultados de transcrição de maneira assíncrona.
A transcrição em lote deverá ser executada de maneira assíncrona, pois os trabalhos em lote são agendados com base no melhor esforço. Normalmente, um trabalho é executado minutos após a solicitação, porém não há estimativa de quando um trabalho será alterado para o estado de execução.
Conversão de texto em fala
A API de Conversão de Texto em Fala permite converter a entrada de texto em uma fala audível, que poderá ser reproduzida de modo direto por meio de um alto-falante de computador ou gravada em um arquivo de áudio.
Vozes disponíveis na sintetização de voz: Ao usar a API de Conversão de Texto em Fala será possível especificar qual voz reproduzirá o texto. Essa funcionalidade oferece flexibilidade para personalizar sua solução de sintetização de voz e dar a ela um personagem específico.
O serviço inclui várias vozes predefinidas, compatíveis com diversos idiomas e pronúncias regionais, incluindo vozes neural , que aproveitam redes neurais para superar limitações comuns na sintetização de voz relacionadas à entonação, resultando em uma voz mais natural. Também será possível desenvolver vozes personalizadas e usá-las com a API de Conversão de Texto em Fala
Idiomas com suporte
As APIs de conversão de fala em texto e conversão de texto em fala são compatíveis com vários idiomas. Use os links abaixo para descobrir mais detalhes sobre os idiomas compatíveis: