Escolha uma tecnologia de geração e reconhecimento de fala da IA do Azure
Os serviços de IA do Azure ajudam os designers e programadores de carga de trabalho a criar aplicações inteligentes, inovadoras, prontas para o mercado e responsáveis com APIs e modelos prontos a utilizar, pré-construídos e personalizáveis.
Este artigo aborda os serviços de IA do Azure que oferecem recursos de reconhecimento e geração de fala, como conversões de fala para texto e texto para fala, tradução de áudio, reconhecimento de alto-falante, bem como suporte de leitura para pessoas com diferenças de aprendizagem.
Nota
Para reunir informações sobre termos ou frases ou obter uma análise contextual detalhada da linguagem falada ou escrita, consulte Escolher uma tecnologia de processamento de linguagem direcionada da IA do Azure.
Serviços
Os seguintes serviços de IA do Azure podem fornecer recursos de reconhecimento e geração de fala para sua carga de trabalho.
O Azure AI Speech fornece processamento de linguagem natural para análise de texto.
- Use o serviço de fala quando precisar transcrever ou traduzir a fala falada, identificar os oradores em uma conversa. Você também pode usar o serviço como uma alternativa de menor custo para a geração de fala com som natural para o Whisper de maior qualidade nos modelos OpenAI.
- Não use o serviço de fala para bate-papo, resumo de conteúdo, moderação ou orientação de usuários por meio de scripts. Em vez disso, use outros modelos para essas coisas.
O Immersive Reader é uma ferramenta que implementa técnicas comprovadas para melhorar a compreensão de leitura para leitores emergentes, estudantes de línguas e pessoas com diferenças de aprendizagem.
- Utilize o Immersive Reader para proporcionar uma experiência de legibilidade melhorada adaptada a estudantes de línguas ou pessoas com diferenças de aprendizagem.
- Não use o Immersive Reader para casos de uso tradicionais de texto para fala.
Discurso de IA do Azure
O Azure AI Speech fornece recursos de fala para texto e de texto para fala com um recurso de fala. Você pode transcrever fala para texto com alta precisão, produzir texto com som natural para vozes de fala, traduzir áudio falado e usar o reconhecimento de alto-falante durante conversas. Crie vozes personalizadas, adicione palavras específicas ao vocabulário de base ou compile os seus próprios modelos. Execute a Voz em qualquer lugar, seja na cloud ou na periferia em contentores.
A fala está disponível para muitos idiomas e regiões.
Capacidades
A tabela a seguir fornece uma lista de recursos disponíveis no serviço de Fala do Azure AI.
Capacidade | Description |
---|---|
Transcrição em lote | Transcreva uma grande quantidade de dados de áudio no armazenamento. Tanto a API REST de fala para texto quanto a CLI de fala suportam transcrição em lote. |
Reconhecimento de intenção | Uma intenção é algo que o utilizador quer fazer, seja reservar um voo, ver tempo ou fazer uma chamada. Com o reconhecimento de intenção, seus aplicativos, ferramentas e dispositivos podem determinar o que o usuário deseja iniciar ou fazer com base nas opções. Você define a intenção do usuário no modelo de reconhecimento de intenção ou de compreensão de linguagem conversacional (CLU). |
Avaliação da pronúncia | Avalia a pronúncia da fala e dá feedback aos oradores sobre a precisão e fluência do áudio falado. |
Reconhecimento de oradores | O reconhecimento de alto-falantes pode ajudar a determinar quem está falando em um clipe de áudio. O serviço pode verificar e identificar os alto-falantes por suas características únicas de voz, usando a biometria de voz. |
Conversão de voz em texto | Converte fluxos de áudio em texto em tempo real ou em lote. |
Conversão de texto em voz | Permite que seus aplicativos, ferramentas ou dispositivos convertam texto em fala sintetizada semelhante à humana. |
Tradução de voz | Fornece tradução multilíngüe de fala para fala e fala para texto de fluxos de áudio. |
Tradução de vídeo | Traduza e gere vídeos em vários idiomas automaticamente. |
Casos de utilização
A tabela a seguir descreve algumas das maneiras pelas quais você pode usar o Azure AI Speech.
Caso de utilização | Capacidade de utilização | Description |
---|---|---|
Criação de conteúdo de áudio | Conversão de voz em texto | Você pode usar vozes neurais para tornar as interações com chatbots e assistentes de voz mais naturais e envolventes, converter textos digitais, como e-books, em audiolivros e aprimorar os sistemas de navegação no carro. |
Transcrição de call center | Conversão de voz em texto | Transcreva chamadas em tempo real ou processe um lote de chamadas, retire informações de identificação pessoal e extraia informações, como sentimento, para ajudar no caso de uso do seu call center. |
Legendas | Conversão de voz em texto | Sincronize legendas com o áudio de entrada, aplique filtros de palavrões, obtenha resultados parciais, aplique personalizações e identifique idiomas falados para cenários multilíngues. |
Aprendizagem de línguas | Conversão de voz em texto | Forneça feedback de avaliação de pronúncia para alunos de idiomas, suporte a transcrição em tempo real para conversas de aprendizado remoto e leia materiais de ensino em voz alta com vozes neurais. |
Assistentes de voz | Conversão de texto em voz | Crie interfaces de conversação naturais e humanas para as suas aplicações e experiências. O recurso de assistente de voz fornece interação rápida e confiável entre um dispositivo e uma implementação de assistente. |
Leitura Avançada
O Immersive Reader, parte dos serviços de IA do Azure, é uma ferramenta projetada de forma inclusiva que implementa técnicas comprovadas para melhorar a compreensão de leitura para novos leitores, alunos de idiomas e pessoas com diferenças de aprendizagem, como dislexia. Com a biblioteca de cliente do Immersive Reader, você pode usar a mesma tecnologia usada no Microsoft Word e no Microsoft OneNote para fornecer uma ótima experiência aos usuários da sua carga de trabalho.
Capacidades
A seguir está uma lista de recursos que sua carga de trabalho pode usar para ajudar seus usuários a atingir suas metas de compreensão de leitura.
- Isolar o conteúdo para melhorar a legibilidade
- Exibir imagens para palavras e termos comuns
- Ajude a entender partes da fala e da gramática destacando verbos, substantivos, pronomes e muito mais
- Leia o conteúdo em voz alta, como o texto selecionado pelo usuário na interface do usuário da sua carga de trabalho
- Traduza conteúdo para muitas línguas em tempo real, o que ajuda a melhorar a compreensão para os leitores que aprendem uma nova língua
- Dividir palavras em sílabas para melhorar a legibilidade ou para soar novas palavras
Próximos passos
- O que é o serviço de Fala?
- Caminho de aprendizagem: Desenvolver soluções de processamento de linguagem natural com os serviços de IA do Azure