Compartilhar via


Processamento de áudio com o Microsoft Audio Stack

O Microsoft Audio Stack é um conjunto de aprimoramentos otimizados para cenários de processamento de fala. Isso inclui exemplos como reconhecimento de palavra-chave e reconhecimento de fala. Ele consiste em vários aprimoramentos/componentes que operam no sinal de áudio de entrada:

  • Supressão de ruído – Reduzir o nível de ruído de fundo.
  • Formação de feixes – Localizar a origem do som e otimizar o sinal de áudio usando vários microfones.
  • Redução da reverberação – Reduzir a reverberação do som nas superfícies no ambiente.
  • Cancelamento de eco acústico – Suprimir o áudio que está sendo reproduzido no dispositivo enquanto a entrada do microfone está ativa.
  • Controle automático de ganho – ajuste dinamicamente o nível de voz da pessoa para considerar quem fala baixo, longas distâncias ou microfones não calibrados.

Diagrama de bloco dos aprimoramentos do Microsoft Audio Stack.

Cenários e casos de uso diferentes podem exigir otimizações diferentes que influenciam o comportamento da pilha de processamento de áudio. Por exemplo, em cenários de telecomunicações, como chamadas telefônicas, é aceitável ter pequenas distorções no sinal de áudio após a aplicação do processamento. O motivo é que as pessoas conseguem continuar entendendo a fala com alta precisão. No entanto, é inaceitável e perturbador para uma pessoa ouvir sua própria voz em um eco. Isso contrasta com cenários de processamento de fala, em que o áudio distorcido pode afetar negativamente a precisão de um modelo de reconhecimento de fala aprendido pelo computador, mas é aceitável ter níveis menores de eco residual.

O processamento é executado totalmente no local em que o SDK de Fala está sendo usado. Os dados de áudio não são transmitidos para os serviços de nuvem da Microsoft para processamento pelo Microsoft Audio Stack. A única exceção a isso é para o Serviço de Transcrição de Conversas, em que o áudio bruto é enviado aos serviços em nuvem da Microsoft para processamento.

O Microsoft Audio Stack também capacita uma ampla variedade de produtos Microsoft:

  • Windows – O Microsoft Audio Stack é o pipeline de processamento de fala padrão quando a categoria de áudio de Fala é usada.
  • Dispositivos do Microsoft Teams e Sala de Reuniões do Microsoft Teams - Os Dispositivos do Microsoft Teams e os dispositivos das Salas de Reuniões usam a Pilha de Áudio da Microsoft para habilitar experiências de alta qualidade baseadas em voz com mãos livres usando a Cortana.

Integração do SDK de Fala

O SDK de Fala integra o MAS (Microsoft Audio Stack), permitindo que qualquer aplicativo ou produto use os recursos de processamento de áudio no áudio de entrada. Alguns dos principais recursos do Microsoft Audio Stack disponíveis por meio do SDK de fala incluem:

  • Entrada de microfone em tempo real e entrada de arquivo – O processamento do Microsoft Audio Stack pode ser aplicado à entrada de microfone em tempo real, aos fluxos e à entrada baseada em arquivo.
  • Seleção de aprimoramentos – Para permitir o controle total do cenário, o SDK permite desabilitar os aprimoramentos individuais, como desreverberação, supressão de ruído, controle de ganho automático e cancelamento de eco acústico. Por exemplo, se o cenário não incluir a renderização do áudio de saída que precisa ser suprimido do áudio de entrada, você terá a opção de desabilitar o cancelamento de eco acústico.
  • Geometrias de microfone personalizadas – O SDK permite que você forneça suas próprias informações de geometria de microfone personalizada, além de dar suporte a geometrias predefinidas como matrizes de dois microfones lineares, de quatro microfones lineares e de sete microfones circulares (confira mais informações sobre as geometrias predefinidas com suporte em Recomendações de matriz de microfone).
  • Ângulos de beamforming – Ângulos específicos de beamforming podem ser fornecidos para otimizar a entrada de áudio proveniente de um local predeterminado em relação aos microfones.

Requisitos mínimos para usar o Microsoft Audio Stack

O Microsoft Audio Stack pode ser usado por qualquer produto ou aplicativo que atenda aos seguintes requisitos:

  • Áudio bruto – O Microsoft Audio Stack requer áudio bruto (não processado) como entrada para produzir os melhores resultados possíveis. O fornecimento de áudio que já foi processado limita a capacidade do Audio Stack de executar aprimoramentos em alta qualidade.
  • Geometrias de microfone – As informações sobre a geometria de cada microfone no dispositivo são necessárias para executar corretamente todos os aprimoramentos oferecidos pelo Microsoft Audio Stack. As informações incluem o número de microfones, a organização física e as coordenadas deles. Há suporte para até 16 canais de microfone de entrada.
  • Retorno ou áudio de referência – Um canal de áudio que representa o áudio que está sendo reproduzido do dispositivo é necessário para executar o cancelamento de eco acústico.
  • Formato de entrada – O Microsoft Audio Stack dá suporte à redução de taxas de amostragem que são múltiplas integrais de 16 kHz. Uma taxa mínima de amostragem de 16 kHz é necessária. Além disso, há suporte para os seguintes formatos: IEEE flutuante little endian de 32 bits, inteiro com sinal little endian de 32 bits, inteiro com sinal little endian de 24 bits, inteiro com sinal little endian de 16 bits e inteiro com sinal de 8 bits.