Compartilhar via


Reproduzindo áudio em chamadas

A ação de reprodução fornecida por meio do SDK de Automação de Chamadas dos Serviços de Comunicação do Azure permite que você reproduza prompts de áudio para os participantes da chamada. Essa ação pode ser acessada por meio da implementação do lado do servidor do seu aplicativo. Você pode reproduzir áudio para chamar os participantes por meio de um dos dois métodos:

  • Fornecendo aos Serviços de Comunicação do Azure acesso a arquivos de áudio pré-gravados do formato WAV, que os Serviços de Comunicação do Azure podem acessar com suporte para autenticação
  • Mensagem de texto regular que pode ser convertida em saída de fala por meio da integração com os serviços de IA do Azure.

Você pode usar a integração recém-anunciada entre os Serviços de Comunicação do Azure e os serviços de IA do Azure para reproduzir respostas personalizadas usando a Conversão de Texto em Fala do Azure. Você pode usar vozes neurais humanas como predefinidas prontas para uso ou criar vozes neurais personalizadas exclusivas para seu produto ou marca. Para obter mais informações sobre vozes, idiomas e localidades com suporte, consulte Suporte a linguagem e voz para o serviço de Fala.

Observação

Atualmente, os Serviços de Comunicação do Azure dão suporte a dois formatos de arquivo, arquivos MP3 com ID3V2TAG e arquivos WAV formatados como áudio de canal mono PCM de 16 bits gravado a 16KHz. Você pode criar arquivos de áudio usando a síntese de Fala com a ferramenta de Criação de Conteúdo de Áudio.

Vozes neurais predefinidas de Conversão de Texto em Fala

A Microsoft usa redes neurais profundas para superar os limites da síntese de fala tradicional em relação ao estresse e à entonação na linguagem falada. A previsão de prosódia e a síntese de voz ocorrem simultaneamente, resultando em uma saída de som mais fluida e natural. Você pode usar essas vozes neurais para tornar as interações com seus chatbots e assistentes de voz mais naturais e envolventes. Há mais de 100 vozes predefinidas para escolher. Saiba mais sobre Vozes de Conversão de Texto em Fala do Azure.

Casos de uso comuns

A ação de reprodução pode ser usada de várias maneiras. Alguns exemplos de como os desenvolvedores podem querer usar a ação de reprodução em seus aplicativos estão listados aqui.

Avisos

Seu aplicativo pode querer reproduzir algum tipo de anúncio quando um participante ingressar ou sair da chamada para notificar outros usuários.

Clientes do autoatendimento

Em cenários com IVRs e assistentes virtuais, você pode usar seu aplicativo ou bots para reproduzir prompts de áudio para os chamadores, esse prompt pode estar na forma de um menu para orientar o chamador em sua interação.

Música de espera

A ação de reprodução também pode ser usada para tocar música de espera para os chamadores. Essa ação pode ser configurada em um loop para que a música continue sendo reproduzida até que um agente esteja disponível para ajudar o chamador.

Reproduzir mensagens de conformidade

Como parte dos requisitos de conformidade em vários setores, espera-se que os fornecedores reproduzam mensagens legais ou de conformidade para os chamadores, por exemplo, “Esta chamada será gravada para fins de qualidade”.

Arquitetura de amostra para reproduzir áudio em uma chamada usando Conversão de Texto em Fala

Diagrama que mostra a arquitetura de exemplo da Play with AI.

Arquitetura de exemplo para reproduzir áudio em uma chamada

Captura de tela do fluxo para ação de reprodução.

Limitações conhecidas

  • Os prompts de texto de Conversão de Texto em Fala dão suporte a no máximo 400 caracteres. Se o prompt for maior do que isso, sugerimos o uso de SSML para ações de reprodução baseadas em Conversão de Texto em Fala.
  • Para cenários em que você excede o limite de cota do serviço de Fala, é possível solicitar o aumento desse limite seguindo as etapas descritas aqui.

Próximas etapas