O que é o modelo Whisper?
O modelo Whisper é um modelo de conversão de fala em texto do OpenAI que você pode usar para transcrever arquivos de áudio. O modelo é treinado em um grande conjunto de dados de áudio e texto em inglês. O modelo é otimizado para transcrever arquivos de áudio que contêm fala em inglês. O modelo também pode ser usado para transcrever arquivos de áudio que contêm fala em outros idiomas. A saída do modelo é texto em inglês.
Os modelos Whisper estão disponíveis por meio do Serviço OpenAI do Azure ou por meio da Fala de IA do Azure. Os recursos diferem para essas ofertas. Na Fala de IA do Azure (transcrição em lote), o Whisper é apenas um dos vários modelos que você pode usar para converter fala em texto.
Você pode se perguntar:
O Modelo Whisper é uma boa opção para o meu cenário ou um modelo de Fala de IA do Azure é melhor? Quais são as comparações de API entre os dois tipos de modelos?
Se eu quiser usar o Modelo Whisper, devo usá-lo por meio do Serviço OpenAI do Azure ou por meio da Fala de IA do Azure? Quais são os cenários que me orientam a usar um ou outro?
Modelo Whisper por meio de modelos de Fala de IA do Azure
O modelo Whisper ou os modelos de Fala de IA do Azure são apropriados dependendo de seus cenários. Se decidir usar a Fala de IA do Azure, você poderá escolher entre vários modelos, incluindo o modelo Whisper. A tabela a seguir compara opções com recomendações sobre por onde começar.
Cenário | Modelo Whisper | Modelos de Fala de IA do Azure |
---|---|---|
Transcrições, legendas e subtítulos em tempo real para áudio e vídeo. | Não disponível | Recomendado |
Transcrições, legendas e subtítulos para áudio e vídeo pré-gravados. | O modelo Whisper por meio do OpenAI do Azure é recomendado para processamento rápido de arquivos de áudio individuais. O modelo Whisper por meio da Fala de IA do Azure (transcrição em lote) é recomendado para processamento em lote de arquivos grandes. Para obter mais informações, confira o artigo Modelo Whisper por meio da Fala de IA do Azure (transcrição em lote) ou por meio do Serviço OpenAI do Azure? | Recomendado para processamento em lote de arquivos grandes, diarização e carimbos de data/hora no nível de palavra. |
Transcrição de gravações e análises de chamadas telefônicas, como resumo de chamadas, sentimento, tópicos principais e insights personalizados. | Disponível | Recomendado |
Transcrição e análise em tempo real para ajudar agentes do call center com perguntas de clientes. | Não disponível | Recomendado |
Transcrição de gravações e análises de reunião, como resumo da reunião, capítulos de reunião e extração de itens de ação. | Disponível | Recomendado |
Entrada de texto em tempo real e geração de documentos por meio de ditado de voz. | Não disponível | Recomendado |
Agente de voz da central de atendimento: roteamento de chamadas e resposta de voz interativa para call centers. | Disponível | Recomendado |
Assistente de voz: assistente de voz específica do aplicativo para um decodificador, aplicativo móvel, carro e outros cenários. | Disponível | Recomendado |
Avaliação de pronúncia: avaliar a pronúncia da voz de um orador. | Não disponível | Recomendado |
Traduzir áudio ao vivo de um idioma para outro. | Não disponível | Recomendado por meio da API de tradução de fala |
Traduzir áudio pré-gravado de outros idiomas para o inglês. | Recomendado | Disponível por meio da API de tradução de fala |
Traduzir áudio pré-gravado para idiomas diferentes do inglês. | Não disponível | Recomendado por meio da API de tradução de fala |
Modelo Whisper modelo por meio da Fala de IA do Azure ou por meio do Serviço OpenAI do Azure?
Se decidir usar o modelo Whisper, você terá duas opções. Você pode escolher se deseja usar o Modelo Whisper por meio do OpenAI do Azure ou por meio da Fala de IA do Azure (transcrição em lote). Em ambos os casos, a legibilidade do texto transcrito é a mesma. É possível inserir áudio de idioma misto e a saída ser em inglês.
O Modelo Whisper por meio do Serviço OpenAI do Azure pode ser o melhor para:
- Transcrever rapidamente arquivos de áudio um de cada vez
- Traduzir áudio de outros idiomas para o inglês
- Fornecer um prompt para o modelo para orientar a saída
- Formatos de arquivo compatíveis: mp3, mp4, mpweg, mpga, m4a, wav e webm
- Há suporte somente do caractere ASCII para nome de arquivo
O Modelo Whisper, por meio da transcrição em lote da Fala de IA do Azure, pode ser a melhor opção para:
- Transcrever arquivos maiores que 25 MB (até 1 GB). O limite de tamanho do arquivo para o modelo Whisper do OpenAI do Azure é de 25 MB.
- Transcrever grandes lotes de arquivos de áudio.
- Diarização para distinguir entre os diferentes palestrantes que participam da conversa. O Serviço de fala fornece informações sobre qual locutor estava falando uma parte específica da fala transcrita. O modelo Whisper por meio do OpenAI do Azure não dá suporte à diarização.
- Carimbos de data/hora no nível da palavra
- Formatos de arquivo compatíveis:mp3, wav e ogg.
O suporte regional é outra consideração.
- O modelo Whisper por meio do Serviço OpenAI do Azure está disponível nas seguintes regiões: Leste dos EUA 2, Índia Sul, Centro-Norte, Leste da Noruega, Suécia Central, Norte da Suíça e Oeste da Europa.
- O modelo Whisper via Fala de IA do Azure está disponível nas seguintes regiões: Leste da Austrália, Leste dos EUA, Centro-Norte dos EUA, Centro-Sul dos EUA, Sudeste Asiático, Sul do Reino Unido e Europa Ocidental.