Escolha uma tecnologia de geração e reconhecimento de fala da IA do Azure

Artigo
10/01/2024

Os serviços de IA do Azure ajudam os designers e programadores de carga de trabalho a criar aplicações inteligentes, inovadoras, prontas para o mercado e responsáveis com APIs e modelos prontos a utilizar, pré-construídos e personalizáveis.

Este artigo aborda os serviços de IA do Azure que oferecem recursos de reconhecimento e geração de fala, como conversões de fala para texto e texto para fala, tradução de áudio, reconhecimento de alto-falante, bem como suporte de leitura para pessoas com diferenças de aprendizagem.

Nota

Para reunir informações sobre termos ou frases ou obter uma análise contextual detalhada da linguagem falada ou escrita, consulte Escolher uma tecnologia de processamento de linguagem direcionada da IA do Azure.

Serviços

Os seguintes serviços de IA do Azure podem fornecer recursos de reconhecimento e geração de fala para sua carga de trabalho.

O Azure AI Speech fornece processamento de linguagem natural para análise de texto.
- Use o serviço de fala quando precisar transcrever ou traduzir a fala falada, identificar os oradores em uma conversa. Você também pode usar o serviço como uma alternativa de menor custo para a geração de fala com som natural para o Whisper de maior qualidade nos modelos OpenAI.
- Não use o serviço de fala para bate-papo, resumo de conteúdo, moderação ou orientação de usuários por meio de scripts. Em vez disso, use outros modelos para essas coisas.
O Immersive Reader é uma ferramenta que implementa técnicas comprovadas para melhorar a compreensão de leitura para leitores emergentes, estudantes de línguas e pessoas com diferenças de aprendizagem.
- Utilize o Immersive Reader para proporcionar uma experiência de legibilidade melhorada adaptada a estudantes de línguas ou pessoas com diferenças de aprendizagem.
- Não use o Immersive Reader para casos de uso tradicionais de texto para fala.

Discurso de IA do Azure

O Azure AI Speech fornece recursos de fala para texto e de texto para fala com um recurso de fala. Você pode transcrever fala para texto com alta precisão, produzir texto com som natural para vozes de fala, traduzir áudio falado e usar o reconhecimento de alto-falante durante conversas. Crie vozes personalizadas, adicione palavras específicas ao vocabulário de base ou compile os seus próprios modelos. Execute a Voz em qualquer lugar, seja na cloud ou na periferia em contentores.

A fala está disponível para muitos idiomas e regiões.

Capacidades

A tabela a seguir fornece uma lista de recursos disponíveis no serviço de Fala do Azure AI.

Capacidade	Description
Transcrição em lote	Transcreva uma grande quantidade de dados de áudio no armazenamento. Tanto a API REST de fala para texto quanto a CLI de fala suportam transcrição em lote.
Reconhecimento de intenção	Uma intenção é algo que o utilizador quer fazer, seja reservar um voo, ver tempo ou fazer uma chamada. Com o reconhecimento de intenção, seus aplicativos, ferramentas e dispositivos podem determinar o que o usuário deseja iniciar ou fazer com base nas opções. Você define a intenção do usuário no modelo de reconhecimento de intenção ou de compreensão de linguagem conversacional (CLU).
Avaliação da pronúncia	Avalia a pronúncia da fala e dá feedback aos oradores sobre a precisão e fluência do áudio falado.
Reconhecimento de oradores	O reconhecimento de alto-falantes pode ajudar a determinar quem está falando em um clipe de áudio. O serviço pode verificar e identificar os alto-falantes por suas características únicas de voz, usando a biometria de voz.
Conversão de voz em texto	Converte fluxos de áudio em texto em tempo real ou em lote.
Conversão de texto em voz	Permite que seus aplicativos, ferramentas ou dispositivos convertam texto em fala sintetizada semelhante à humana.
Tradução de voz	Fornece tradução multilíngüe de fala para fala e fala para texto de fluxos de áudio.
Tradução de vídeo	Traduza e gere vídeos em vários idiomas automaticamente.

Casos de utilização

A tabela a seguir descreve algumas das maneiras pelas quais você pode usar o Azure AI Speech.

Caso de utilização	Capacidade de utilização	Description
Criação de conteúdo de áudio	Conversão de voz em texto	Você pode usar vozes neurais para tornar as interações com chatbots e assistentes de voz mais naturais e envolventes, converter textos digitais, como e-books, em audiolivros e aprimorar os sistemas de navegação no carro.
Transcrição de call center	Conversão de voz em texto	Transcreva chamadas em tempo real ou processe um lote de chamadas, retire informações de identificação pessoal e extraia informações, como sentimento, para ajudar no caso de uso do seu call center.
Legendas	Conversão de voz em texto	Sincronize legendas com o áudio de entrada, aplique filtros de palavrões, obtenha resultados parciais, aplique personalizações e identifique idiomas falados para cenários multilíngues.
Aprendizagem de línguas	Conversão de voz em texto	Forneça feedback de avaliação de pronúncia para alunos de idiomas, suporte a transcrição em tempo real para conversas de aprendizado remoto e leia materiais de ensino em voz alta com vozes neurais.
Assistentes de voz	Conversão de texto em voz	Crie interfaces de conversação naturais e humanas para as suas aplicações e experiências. O recurso de assistente de voz fornece interação rápida e confiável entre um dispositivo e uma implementação de assistente.

Leitura Avançada

O Immersive Reader, parte dos serviços de IA do Azure, é uma ferramenta projetada de forma inclusiva que implementa técnicas comprovadas para melhorar a compreensão de leitura para novos leitores, alunos de idiomas e pessoas com diferenças de aprendizagem, como dislexia. Com a biblioteca de cliente do Immersive Reader, você pode usar a mesma tecnologia usada no Microsoft Word e no Microsoft OneNote para fornecer uma ótima experiência aos usuários da sua carga de trabalho.

Capacidades

A seguir está uma lista de recursos que sua carga de trabalho pode usar para ajudar seus usuários a atingir suas metas de compreensão de leitura.

Isolar o conteúdo para melhorar a legibilidade
Exibir imagens para palavras e termos comuns
Ajude a entender partes da fala e da gramática destacando verbos, substantivos, pronomes e muito mais
Leia o conteúdo em voz alta, como o texto selecionado pelo usuário na interface do usuário da sua carga de trabalho
Traduza conteúdo para muitas línguas em tempo real, o que ajuda a melhorar a compreensão para os leitores que aprendem uma nova língua
Dividir palavras em sílabas para melhorar a legibilidade ou para soar novas palavras

Partilhar via

Escolha uma tecnologia de geração e reconhecimento de fala da IA do Azure

Serviços

Discurso de IA do Azure

Capacidades

Casos de utilização

Leitura Avançada

Capacidades

Próximos passos

Comentários

Recursos adicionais

Partilhar via

Escolha uma tecnologia de geração e reconhecimento de fala da IA do Azure

Serviços

Discurso de IA do Azure

Capacidades

Casos de utilização

Leitura Avançada

Capacidades

Próximos passos

Recursos relacionados

Comentários

Recursos adicionais