O que há de novo na Fala de IA do Azure?
A Fala de IA do Azure é atualizada continuamente. Para mantê-lo atualizado com os desenvolvimentos mais recentes, este artigo fornece informações sobre novas versões e novos recursos.
Destaques recentes
- A transcrição rápida agora está em disponibilidade geral. Ela transcreve o áudio muito mais rapidamente do que a duração real dele. Para obter mais informações, consulte o guia da API de transcrição rápida.
- A extensão do Kit de Ferramentas de Fala de IA do Azure agora está disponível para usuários do Visual Studio Code. Ela contém uma lista de inícios rápidos de fala e exemplos de cenário que podem ser facilmente criados e executados com cliques simples. Para obter mais informações, consulte Kit de Ferramentas de Fala de IA do Azure no Visual Studio Code Marketplace.
- As vozes HD (alta definição) de Fala de IA do Azure estão disponíveis na versão prévia pública. As vozes HD podem entender o conteúdo, detectar emoções automaticamente no texto de entrada e ajustar o tom de fala em tempo real para corresponder ao sentimento. Para obter mais informações, confira O que são vozes hd (alta definição) de Fala de IA do Azure?.
- A tradução de vídeo agora está disponível no serviço de Fala de IA do Azure. Para obter mais informações, consulte O que é tradução de vídeo?
- O serviço de Fala de IA do Azure dá suporte ao texto OpenAI para vozes de conversão de texto em fala. Para obter mais informações, confira O que são as vozes de conversão de texto em fala do OpenAI?.
- A API de voz personalizada está disponível para criar e gerir modelos de voz neural personalizados profissionais e pessoais.
Notas de versão
Escolher um serviço ou um recurso
SDK de Fala 1.42.0: versão de dezembro de 2024
Novos recursos
- Java: Adição de APIs de log de diagnóstico usando classes de FileLogger, MemoryLogger, EventLogger e SpxTrace.
- Suporte ao envio de "detalhes" da propriedade JSON do participante da reunião para o serviço
- Go: adicionada id de propriedade pública SpeechServiceConnection_ProxyHostBypass para especificar hosts para os quais o proxy não é usado.
- JavaScript, Go: adicionada a ID de propriedade pública Speech_SegmentationStrategy para determinar quando uma frase falada terminou e um resultado reconhecido final deve ser gerado (incluindo a segmentação semântica)
- JavaScript, Go: adicionada id de propriedade pública Speech_SegmentationMaximumTimeMs determinar o fim de uma frase falada com base no tempo em Java, Python, C#, C++
Correções de bug
- Correção da voz do TTS inserida (re)carregada para cada síntese se o nome da voz não estiver definido.
- Correção de problemas de cálculo de deslocamento ao usar MeetingTranscriber em alguns cenários.
- Correção de um possível deadlock ao registrar vários ouvintes de eventos de diagnóstico em paralelo.
- (JavaScript) Correção de possíveis resultados NoMatch perdidos quando no final do áudio. Essa correção também alinha o comportamento no final da fala com os outros idiomas do SDK e pode resultar em alguns eventos vazios que não são mais gerados.
- (JavaScript) Os deslocamentos de correção resultam em JSON para se alinhar com o deslocamento em objetos de resultado. Anteriormente, apenas a propriedade de deslocamento do objeto de resultado era corrigida para contabilização de reconexões de serviço.
- Linguagem Go: corrigido um erro de compilação https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
- Correção de deslocamentos de resultado na transcrição da reunião quando ocorre uma reconexão ao serviço.
- Correção de um deadlock no registro em log.
Amostras
- Exemplos de C# atualizados para usar o .NET 8.0.
- O exemplo de Java usa a API de log de diagnóstico mostrando o uso das novas classes de log de diagnóstico.
Versão de novembro de 2024
Extensão do Kit de Ferramentas de Fala de IA do Azure para Visual Studio Code
A extensão do Kit de Ferramentas de Fala de IA do Azure agora está disponível para usuários do Visual Studio Code. Ela contém uma lista de inícios rápidos de fala e exemplos de cenário que podem ser facilmente criados e executados com cliques simples. Para obter mais informações, consulte Kit de Ferramentas de Fala de IA do Azure no Visual Studio Code Marketplace.
Exemplos de código de avatar de conversão de texto em fala
Adicionamos exemplos de código de avatares de conversão de texto em fala para Android e iOS. Esses exemplos demonstram como usar avatares de conversão de texto em fala em tempo real em seus aplicativos móveis.
SDK de Fala 1.41.1: versão de outubro de 2024
Novos recursos
- Adicionado suporte ao Amazon Linux 2023 e ao Azure Linux 3.0.
- Adicionada a ID de propriedade pública SpeechServiceConnection_ProxyHostBypass para especificar os hosts para os quais o proxy não é usado.
- Adicionadas propriedades para controlar novas estratégias de segmentação de frases.
Correções de bugs
- Correção do suporte incompleto para o reconhecimento de palavras-chave Modelos avançados produzidos após agosto de 2024.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- Observe que, com o Swift no iOS, seu projeto deve usar o MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (de https://aka.ms/csspeech/iosbinaryembedded) ou o pod MicrosoftCognitiveServicesSpeechEmbedded-iOS que inclui o suporte ao modelo Avançado.
- Correção de um vazamento de memória em C# relacionado ao uso de cadeia de caracteres.
- Correção de um problema de não conseguir obter SPXAutoDetectSourceLanguageResult de SPXConversationTranscriptionResult em Objective-C e Swift.
- Correção de uma falha ocasional ao usar o Microsoft Audio Stack no reconhecimento.
- Correção das dicas de tipo em Python. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
- Correção de um problema de não conseguir buscar a lista de vozes TTS ao usar um ponto de extremidade personalizado.
- Correção da reinicialização do TTS incorporado para cada solicitação de fala quando a voz é especificada por um nome curto.
- Correção da documentação de referência da API para a duração máxima do áudio RecognizeOnce.
- Correção de erros ao lidar com taxas de amostragem arbitrárias no JavaScript
- Agradecemos a rseanhall por essa contribuição.
- Correção de um erro ao calcular o deslocamento de áudio em JavaScript
- Agradecemos a motamed por essa contribuição.
Alterações de quebra
- O suporte ao reconhecimento de palavra-chave no Windows ARM de 32 bits foi removido devido ao runtime do ONNX necessário não disponível para essa plataforma.
SDK de Fala 1.40: versão de agosto de 2024
Observação
O SDK de Fala versão 1.39.0 era uma versão interna e não está ausente.
Novos recursos
- Adicionado suporte para streaming de áudio compactado
G.722
no reconhecimento de fala. - Adicionado suporte para definição de tom, taxa e volume no streaming de texto de entrada na sintetização de voz.
- Adicionado suporte para streaming de texto de entrada de voz pessoal introduzindo
PersonalVoiceSynthesisRequest
na sintetização de voz. Essa API está em versão prévia e está sujeita a alterações em versões futuras. - Adicionado suporte para a diarização de resultados intermediários ao usar o
ConversationTranscriber
. - Remoção do suporte ao CentOS/RHEL 7 devido ao CentOS 7 EOL e ao Fim do RHEL 7 Maintenance Support 2.
- O uso de modelos de fala incorporados agora requer uma licença de modelo em vez de uma chave de modelo. Se você já for um cliente de fala incorporada e quiser atualizar, entre em contato com seu representante de suporte na Microsoft para receber os detalhes sobre as atualizações de modelo.
Correções de bug
- Criação de binários do SDK de Fala para Windows com o sinalizador _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR como mitigação para o problema de runtime do Visual C++ Violação de acesso com std::mutex::lock após a atualização para o VS 2022 versão 17.10.0: Developer Community (visualstudio.com). Os aplicativos do Windows C++ que usam o SDK de Fala podem precisar aplicar o mesmo sinalizador de configuração de build se o código usar std::mutex (confira os detalhes no problema vinculado).
- Correção da detecção do OpenSSL 3.x que não funcionava no arm64 do Linux (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
- Correção do problema onde, ao implantar um aplicativo UWP, as bibliotecas e os modelos do pacote NuGet do MAS não eram copiados para o local de implantação.
- Correção de um conflito de provedor de conteúdo em pacotes Android (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
- Correção das opções de pós-processamento que não eram aplicadas aos resultados de reconhecimento de fala intermediários.
- Correção do aviso do .NET 8 sobre identificadores de runtime específicos para distribuição (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244).
Amostras
- Atualização das amostras de fala incorporada para usar uma licença de modelo em vez de uma chave.
SDK de Fala 1.38.0: versão de junho de 2024
Novos recursos
- Atualizar os requisitos da plataforma Linux do SDK de Fala:
- A nova linha de base mínima é Ubuntu 20.04 LTS ou compatível com
glibc
2.31 ou mais recente. - Os binários para Linux x86 são removidos de acordo com o suporte à plataforma Ubuntu 20.04.
- Observe que o RHEL/CentOS 7 permanece com suporte até 30 de junho (o fim do CentOS 7 EOL e o fim do suporte de manutenção 2 do RHEL 7). Os binários para eles serão removidos na versão 1.39.0 do SDK de Fala.
- A nova linha de base mínima é Ubuntu 20.04 LTS ou compatível com
- Adição de suporte para OpenSSL 3 no Linux.
- Adição de suporte para o formato de saída de áudio g722-16khz-64kbps com o sintetizador de fala.
- Adição de suporte para enviar mensagens por meio de um objeto de conexão com o sintetizador de fala.
- Adição de APIs Start/StopKeywordRecognition em Objective-C e Swift.
- Adição de a API para selecionar uma categoria de modelo de tradução personalizada.
- Atualização do uso do GStreamer com o sintetizador de fala.
Correções de bug
- Correção do erro "O tamanho da mensagem Websocket não pode exceder 65,536 bytes" durante Start/StopKeywordRecognition.
- Correção de uma falha de segmentação do Python durante a síntese de fala.
Amostras
- Atualização de exemplos de C# para usar o .NET 6.0 por padrão.
SDK de Fala 1.37.0: versão de abril de 2024
Novos recursos
- Adicione suporte para streaming de texto de entrada na síntese de fala.
- Altere a voz de síntese de fala padrão para en-US-AvaMultilingualNeural.
- Atualize builds do Android para usar o OpenSSL 3.x.
Correções de bug
- Corrija falhas ocasionais de JVM durante a eliminação de SpeechRecognizer ao usar MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
- Aprimore a detecção de dispositivos de áudio padrão no Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)
Exemplos
- Atualizado para novos recursos.
Serviço Cognitivo do Azure para Fala SDK 1.36.0: versão de março de 2024
Novos recursos
- Adicione suporte para identificação de idioma em tradução multilíngue em pontos de extremidade v2 usando AutoDetectSourceLanguageConfig::FromOpenRange().
Correções de bug
Correção do evento SynthesisCanceled não disparado se parar for chamado durante o evento Synthesis Started (iniciado).
Corrija um problema de ruído na síntese de fala incorporada.
Corrigida uma falha no reconhecimento de fala integrado ao executar vários reconhecedores em paralelo.
Corrija a configuração do modo de detecção de frase nos pontos de extremidade v1/v2.
Correções para vários problemas com o Microsoft Audio Stack.
Exemplos
- Atualizações para novos recursos.
SDK de Fala 1.35.0: versão de fevereiro de 2024
Novos recursos
- Alterar a voz padrão da conversão de texto em fala de en-US-JennyMultilingualNeural para en-US-AvaNeural.
- Suporte a detalhes em nível de palavra nos resultados da tradução de fala inserida usando o formato de saída detalhado.
Correções de bug
- Corrigir a API do getter de posição do AudioDataStream em Python.
- Corrigir a tradução de fala usando pontos de extremidade v2 sem detecção de idioma.
- Corrigir uma falha aleatória e de eventos de limite de palavras duplicados na conversão de texto em fala inserida.
- Retorna um código de erro de cancelamento correto para um erro interno do servidor em conexões WebSocket.
- Correção da falha no carregamento da biblioteca FPIEProcessor.dll quando o MAS é usado com C#.
Exemplos
- Pequenas atualizações de formatação para amostras de reconhecimento inserido.
SDK de Fala 1.34.1: versão de janeiro de 2024
Alterações da falha
- Somente correções de bug
Novos recursos
- Somente correções de bug
Correções de bug
- Correção da regressão introduzida na 1.34.0 na qual a URL do ponto de extremidade de serviço foi construída com informações de localidade incorretas para usuários em várias regiões da China.
SDK de Fala 1.34.0: versão de novembro de 2023
Alterações da falha
SpeechRecognizer
foi atualizado para usar um novo ponto de extremidade por padrão (ou seja, quando não especifica explicitamente um URL) que não dá mais suporte a parâmetros de cadeia de caracteres de consulta para a maioria das propriedades. Em vez de definir parâmetros de cadeia de caracteres de consulta diretamente com ServicePropertyChannel.UriQueryParameter, use as funções de API correspondentes.
Novos recursos
- Compatibilidade com o .NET 8 (correção para https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 exceto para aviso sobre centos7-x64)
- Suporte para métricas de desempenho de fala inseridas que podem ser usadas para avaliar a capacidade de um dispositivo para executar a fala inserida.
- Suporte para identificação de idioma de origem na tradução multilíngue inserida.
- O suporte à conversão inserida de fala em texto, de texto em fala e tradução para iOS e Swift/Objective-C foi lançado em versão prévia.
- O suporte inserido é fornecido no Cocoapod MicrosoftCognitiveServicesSpeechEmbedded-iOS.
Correções de bug
- Correção do SDK do iOS 2 vezes o crescimento do tamanho binário · Problema nº 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Correção para Não foi possível obter carimbos de data/hora no nível da palavra na API de conversão de fala em texto do Azure · Problema nº 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Correção da fase de destruição DialogServiceConnector para desconectar eventos corretamente. Isso estava causando falhas ocasionalmente.
- Correção para exceção durante a criação de um reconhecedor quando MAS é usado.
- FPIEProcessor.dll do pacote NuGet Microsoft.CognitiveServices.Speech.Extension.MAS para Windows UWP x64 e Arm64 tinha dependência em bibliotecas de runtime de VC para C++ nativo. O problema foi corrigido atualizando a dependência para corrigir bibliotecas de runtime de VC (para UWP).
- Correção para chamadas recorrentes [MAS] para recognizeOnceAsync levam a SPXERR_ALREADY_INITIALIZED ao usar o MAS · Problema nº 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Correção para falha de reconhecimento de fala inserida quando as listas de frases são usadas.
Exemplos
- Amostras de conversão inserida de fala em texto, de texto em fala e tradução para iOS.
CLI de Fala 1.34.0: versão de novembro de 2023
Novos recursos
- Suporte à saída de eventos de limite de palavras ao sintetizar a fala.
Correções de bug
- A dependência do JMESPath atualizada para a versão mais recente melhora as avaliações de cadeia de caracteres
SDK de Fala 1.33.0: versão de outubro de 2023
Aviso de alteração interruptiva
- O novo pacote NuGet adicionado para o MAS (Microsoft Audio Stack) agora é necessário para ser incluído por aplicativos que estão usando MAS nos respectivos arquivos de configuração de pacote.
Novos recursos
- Adicionado o novo pacote NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, que fornece melhor desempenho de cancelamento de eco ao usar o Microsoft Audio Stack
- Avaliação de pronúncia: adição de suporte para avaliação de conteúdo e prosódia, que pode avaliar a fala em termos de prosódia, vocabulário, gramática e tópico.
Correções de bug
- Corrigidos os desvios em resultados de reconhecimento de palavra-chave para que eles correspondam corretamente ao fluxo de áudio de entrada desde o início. A correção se aplica ao reconhecimento de palavra-chave autônoma e ao reconhecimento de fala disparado por palavra-chave.
- Correção do problema em que o stopSpeaking do sintetizador não retorna imediatamente O método stopSpeaking() do SPXSpeechSynthesizer não pode retornar imediatamente no iOS 17 – Problema nº 2081
- Corrigido o problema de importação do catalisador Mac no suporte do módulo Swift para mac catalyst com apple silicon. Problema nº 1948
- JS: os carregamentos do módulo AudioWorkletNode agora usam uma URL confiável, com fallback para o navegador CDN incluso.
- JS: os arquivos lib empacotados agora são destinados ao ES6 JS, e o suporte para ES5 JS foi removido.
- JS: eventos intermediários para o cenário de tradução direcionados ao ponto de extremidade v2 são tratados corretamente
- JS: a propriedade de idioma para TranslationRecognitionEventArgs agora está definida para eventos translation.hypothesis.
- Sintetização de voz: o evento SynthesisCompleted tem a garantia de ser emitido após todos os eventos de metadados, portanto, ele pode ser usado para indicar o final dos eventos. Como detectar quando os visemes são recebidos completamente? Problema n. 2093 Azure-Samples/cognitive-services-speech-sdk
Exemplos
- Exemplo adicionado para demonstrar streaming MULAW usando o Python)
- Correção para exemplo de NAudio de conversão de fala em texto
CLI de Fala 1.33.0: versão de outubro de 2023
Novos recursos
- Suporte à saída de eventos de limite de palavras ao sintetizar a fala.
Correções de bug
- nenhum
SDK de Fala 1.32.1: versão de setembro de 2023
Correções de bug
- Atualizações de pacotes do Android com as correções de segurança mais recentes do OpenSSL1.1.1v
- JS – propriedade WebWorkerLoadType adicionada para permitir o bypass do carregamento de URL de dados para o trabalho de tempo limite
- JS – Corrigir a desconexão da Tradução de Conversa após 10 minutos
- JS – O token de autenticação da Tradução de Conversa a partir da Conversa agora se propaga para a conexão do serviço de Tradução
Exemplos
SDK de Fala 1.31.0: versão de agosto de 2023
Novos recursos
O suporte para a diarização em tempo real está disponível em visualização pública com o SDK de Fala 1.31.0. Esse recurso está disponível nos seguintes SDKs: C#, C++, Java, JavaScript, Python e Objective-C/Swift.
O limite de palavras de síntese de fala sincronizada e eventos viseme com reprodução de áudio
Alterações de quebra
- O antigo cenário de “transcrição de conversas” foi renomeado como “transcrição de reunião”. Por exemplo, use
MeetingTranscriber
em vez deConversationTranscriber
e useCreateMeetingAsync
em vez deCreateConversationAsync
. Embora os nomes de objetos e métodos do SDK tenham sido alterados, a renomeação não altera o recurso em si. Use objetos de transcrição de reunião para transcrever reuniões com perfis de usuário e assinaturas de voz. Consulte Transcrição de reunião para obter mais informações. Os objetos e métodos de "tradução de conversa" não são afetados por essas alterações. Você ainda pode usar o objetoConversationTranslator
e seus métodos para atender a cenários de tradução.
- Para a diarização em tempo real, um novo objeto
ConversationTranscriber
é introduzido. O novo objeto de modelo de “transcrição de conversas” e os padrões de chamada são semelhantes ao reconhecimento contínuo com o objetoSpeechRecognizer
. Uma diferença importante é que o objetoConversationTranscriber
foi projetado para ser usado em um cenário de conversa em que você deseja diferenciar vários locutores (diarização). Perfis de usuário e assinaturas de voz não são aplicáveis. Confira o início rápido de diarização em tempo real para obter mais informações.
Essa tabela mostra os nomes de objeto anteriores e novos para diarização em tempo real e transcrição de reunião. O nome do cenário está na primeira coluna, os nomes de objeto anteriores estão na segunda coluna e os novos nomes de objeto estão na terceira coluna.
Nome do cenário | Nomes de objeto anteriores | Novos nomes de objeto |
---|---|---|
Diarização em tempo real | N/D | ConversationTranscriber |
Transcrição da reunião | ConversationTranscriber ConversationTranscriptionEventArgs ConversationTranscriptionCanceledEventArgs ConversationTranscriptionResult RemoteConversationTranscriptionResult RemoteConversationTranscriptionClient RemoteConversationTranscriptionResult Participant 1ParticipantChangedReason 1User 1 |
MeetingTranscriber MeetingTranscriptionEventArgs MeetingTranscriptionCanceledEventArgs MeetingTranscriptionResult RemoteMeetingTranscriptionResult RemoteMeetingTranscriptionClient RemoteMeetingTranscriptionResult Participant ParticipantChangedReason User Meeting 2 |
1 Os objetos Participant
, ParticipantChangedReason
e User
são aplicáveis aos cenários de transcrição de reunião e tradução de reunião.
2 O objeto Meeting
é novo e é usado com o objeto MeetingTranscriber
.
Correções de bug
- Correção da versão mínima com suporte https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017 do macOS
- Corrigido o bug de avaliação de pronúncia:
- Resolvido o problema de pontuações de precisão de fonema. Agora, garante-se que elas refletirão com precisão apenas o fonema específico mal pronunciado. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Resolvido um problema em que o recurso Avaliação de Pronúncia identificava incorretamente pronúncias totalmente corretas como erradas, especialmente em situações em que as palavras podiam ter várias pronúncias válidas. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530
Exemplos
CSharp
JavaScript
SDK de Fala 1.30.0: versão de julho de 2023
Novos recursos
- C++, C#, Java: foi adicionado suporte para
DisplayWords
no resultado detalhado do Reconhecimento de Fala Incorporado. - Objective-C/Swift: adicionado o suporte ao evento
ConnectionMessageReceived
em Objective-C/Swift. - Objective-C/Swift: modelos aprimorados de detecção de palavras-chave para iOS. Essa alteração aumentou o tamanho de determinados pacotes que contêm binários do iOS (como NuGet, XCFramework). Estamos trabalhando para reduzir o tamanho em versões futuras.
Correções de bug
- Corrigimos um vazamento de memória ao usar o reconhecedor de fala com PhraseListGrammar, conforme relatado por um cliente (problema no GitHub).
- Corrigido um deadlock na API de conexão aberta de conversão de texto em fala.
Mais anotações
- Java: alguns métodos da API do Java
public
usados internamente foram alterados para o pacoteinternal
,protected
ouprivate
. Essa alteração não deve afetar os desenvolvedores, pois não esperamos que os aplicativos os utilizem. Anotado aqui para fins de transparência.
Exemplos
- Novos exemplos de avaliação de pronúncia sobre como especificar um idioma de aprendizado no seu aplicativo
- C#: Consulte código de exemplo.
- C++: Consulte código de exemplo.
- JavaScript: consulte código de exemplo.
- Objective-C: consulte o código de exemplo.
- Python: consulte o código de exemplo.
- Swift: consulte o código de exemplo.
SDK de Fala 1.29.0: versão de junho de 2023
Novos recursos
- C++, C#, Java: versão prévia das APIs de Tradução de Fala Inserida. Agora você pode fazer a tradução de fala sem conexão com a nuvem!
- JavaScript: Identificação Contínua de Idioma (LID) agora habilitado para tradução de fala.
- JavaScript: contribuição da comunidade para adicionar a propriedade
LocaleName
à classeVoiceInfo
. Agradecemos ao usuário do GitHub shivsarthak pela solicitação de pull. - C++, C#, Java: adicionado o suporte para reamostragem da saída da conversão inserida de texto em fala da taxa de amostragem de 16 kHz para 48 kHz.
- Adicionado suporte para a variante idiomática
hi-IN
no Reconhecimento de Intenções com Correspondência de Padrões Simples.
Correções de bug
- Correção de uma falha causada por uma condição de corrida no Reconhecimento de Fala durante a destruição de objetos, como visto em alguns de nossos testes do Android
- Correção de possíveis deadlocks no Reconhecimento de Intenções com o Correspondente de Padrões Simples
Exemplos
- Novos exemplos de Tradução de Fala Inserida
SDK de Fala 1.28.0: versão de maio de 2023
Alteração da falha
- SDK do JavaScript: OCSP (Protocolo de Status de Certificado Online) foi removido. Isso permite que os clientes se adaptem melhor aos padrões do navegador e do Node para tratamento de certificados. A versão 1.28 em diante não incluirá mais nosso módulo OCSP personalizado.
Novos recursos
- O Reconhecimento de Fala Inserido agora retorna
NoMatchReason::EndSilenceTimeout
quando um tempo limite de silêncio ocorre no final de um enunciado. Isso corresponde ao comportamento ao fazer o reconhecimento usando o serviço de fala em tempo real. - SDK do JavaScript: defina propriedades em
SpeechTranslationConfig
usando valores de enumeraçãoPropertyId
.
Correções de bug
- C# no Windows – corrija uma possível condição de corrida/deadlock na extensão de áudio do Windows. Em cenários em que o renderizador de áudio é rapidamente descartado e o método Sintetizador é utilizado para parar a fala, o próximo evento não é redefinido corretamente pela operação de parada. Isso pode fazer com que o objeto renderizador nunca seja descartado, mantendo um bloqueio global para descarte e, consequentemente, congelando o thread do dotnet GC.
Amostras
- Adicionou um exemplo de fala inserida para MAUI.
- Atualizada a amostra de fala inserida para Android Java de modo a incluir a conversão de texto em fala.
SDK de Fala 1.27.0: lançamento em abril de 2023
Notificação sobre as próximas alterações
- Planejamos remover o Protocolo de Status de Certificados Online (OCSP) na próxima versão do SDK do JavaScript. Isso permite que os clientes se adaptem melhor aos padrões do navegador e do Node para tratamento de certificados. A versão 1.27 é a última versão que inclui nosso módulo OCSP personalizado.
Novos recursos
- JavaScript: suporte adicionado à entrada do microfone do navegador com Verificação e Identificação do Locutor.
- Reconhecimento de Fala Incorporado: atualizar o suporte para a configuração
PropertyId::Speech_SegmentationSilenceTimeoutMs
.
Correções de bug
- Geral – atualizações de confiabilidade na lógica de reconexão de serviço (todas as linguagens de programação, exceto o JavaScript).
- Geral – corrigir conversões de cadeia de caracteres vazando na memória no Windows (todas as linguagens de programação relevantes, exceto o JavaScript).
- Reconhecimento de Fala Incorporado: corrige uma falha no Reconhecimento de Fala em Francês ao usar determinadas entradas da lista gramatical.
- Documentação do código-fonte: correções nos comentários da documentação de referência do SDK relacionados ao registro de áudio no serviço.
- Reconhecimento de intenção: corrigir prioridades da Correspondência padrão relacionadas às entidades da lista.
Exemplos
- Tratar adequadamente a falha de autenticação na Transcrição de Conversa (CTS) em C#.
- Foi adicionado um exemplo de avaliação de pronúncia de streaming para Python, JavaScript, Objective-C e Swift.
SDK de Fala 1.26.0: versão de março de 2023
Alterações de quebra
- O Bitcode foi desabilitado em todos os destinos do iOS nos seguintes pacotes: Cocoapod com xcframework, NuGet (para Xamarin e MAUI) e Unity. A mudança se deve à substituição do suporte ao bitcode da Apple a partir do Xcode 14. Essa alteração também significa que, se você estiver usando o Xcode versão 13 ou tiver habilitado explicitamente o bitcode em seu aplicativo usando o SDK de Fala, poderá encontrar um erro informando que “a estrutura não contém bitcode e você deve recompilá-la”. Para resolver o problema, verifique se os destinos têm o bitcode desabilitado.
- O destino mínimo de implantação do iOS foi atualizado para 11.0 nessa versão, o que significa que o hardware armv7 não é mais compatível.
Novos recursos
- O Reconhecimento de Fala incorporado agora dá suporte aos áudios de entrada de taxa de amostragem de 8 e 16 kHz (16 bits por amostra, PCM mono).
- A sintetização de voz agora relata latências de conexão, rede e serviço no resultado a fim de ajudar na otimização da latência de ponta a ponta.
- Novas regras de desempate para o Reconhecimento de Intenção com padrões correspondentes simples. À medida que mais bytes de caracteres forem correspondidos, vencerão as correspondências de padrão com a maior contagem deles. Exemplo: o padrão “Selecione {algo} no canto superior direito” prevalecerá sobre “Selecione {algo}”
Correções de bug
- Síntese de Fala: correção de um bug em que o emoji não está correto em eventos de limite de palavras.
- Reconhecimento de intenção com CLU (compreensão da linguagem coloquial):
- As intenções do fluxo de trabalho do orquestrador da CLU agora aparecem corretamente.
- O resultado JSON agora está disponível por meio da ID de propriedade
LanguageUnderstandingServiceResponse_JsonResult
.
- Reconhecimento de fala com ativação de palavra-chave: correção para falta de áudio de aproximadamente 150 ms após o reconhecimento de uma palavra-chave.
- Correção para a compilação da versão MAUI para iOS do NuGet do SDK de Fala, relatada pelo cliente (problema do GitHub)
Exemplos
- Correção do exemplo do iOS para Swift, relatada pelo cliente (problema do GitHub)
SDK de Fala 1.25.0: versão de janeiro de 2023
Alterações de quebra
- As APIs de Identificação de Idioma (versão prévia) foram simplificadas. Se você atualizar para o SDK de Fala 1.25 e ver uma quebra de compilação, visite a página Identificação de Idioma para saber mais sobre a nova propriedade
SpeechServiceConnection_LanguageIdMode
. Esta única propriedade substitui as duas anterioresSpeechServiceConnection_SingleLanguageIdPriority
eSpeechServiceConnection_ContinuousLanguageIdPriority
. Não será mais necessário priorizar entre baixa latência e alta precisão após as melhorias recentes no modelo. Agora, você só precisa selecionar se quer executar a Identificação de Idioma contínua ou no início ao fazer tradução ou reconhecimento de fala contínua.
Novos recursos
- C#/C++/Java: o SDK de Fala Inserida foi lançado agora em visualização pública restrita. Consulte a documentação Fala Inserida (versão prévia ). Agora, é possível fazer a conversão de fala em texto e a conversão de texto em fala no dispositivo quando a conectividade em nuvem estiver intermitente ou indisponível. Com suporte para plataformas Android, Linux, macOS e Windows
- C# MAUI: suporte adicionado para destinos do Mac Catalyst e iOS no NuGet de SDK de Fala (problema de Cliente)
- Unity: Arquitetura Android x86_64 adicionada ao pacote Unity (problema de Cliente)
- Go:
- Suporte de streaming direto ALAW/MULAW adicionado para reconhecimento de fala (problema de Cliente)
- Suporte adicionado para PhraseListGrammar. Obrigado usuário do GitHub czkoko pela contribuição para a comunidade!
- C#/C++: o Reconhecedor de Intenção agora dá suporte a modelos de Compreensão da Linguagem Coloquial em C++ e C# com orquestração no serviço Microsoft
Correções de bug
- Correção para um travamento ocasional em KeywordRecognizer ao tentar pará-lo
- Python:
- Correção para obter resultados da Avaliação de Pronúncia quando
PronunciationAssessmentGranularity.FullText
estiver definido como (problema de Cliente) - Correção para propriedade de gênero para vozes Masculinas não sendo recuperadas, ao obter vozes de sintetização de voz
- Correção para obter resultados da Avaliação de Pronúncia quando
- JavaScript
- Correção para analisar alguns arquivos WAV que foram gravados em dispositivos iOS (problema de Cliente)
- O SDK do JS agora compila sem usar npm-force-resolutions (problema de Cliente)
- O Tradutor de Conversa agora define corretamente o ponto de extremidade do serviço ao usar uma instância speechConfig criada utilizando SpeechConfig.fromEndpoint()
Exemplos
Exemplos adicionados mostrando como usar a Fala Inserida
Exemplo de Conversão de fala em texto adicionado para MAUI
Consulte Repositório de exemplos do SDK de Fala.
SDK de Fala 1.24.2: versão de novembro de 2022
Novos recursos
- Sem novos recursos, apenas uma correção do mecanismo inserido para dar suporte a novos arquivos de modelo.
Correções de bug
- Todas as linguagens de programação
- Corrigido um problema com a criptografia de modelos de reconhecimento de fala inseridos.
SDK de Fala 1.24.1: versão de novembro de 2022
Novos recursos
- Pacotes publicados para a versão prévia de Fala Inserida. Consulte https://aka.ms/embedded-speech para obter mais informações.
Correções de bug
- Todas as linguagens de programação
- Correção de falha de TTS inserido quando não há suporte para fonte de voz
- Correção de stopSpeaking() que não consegue parar a reprodução no Linux (nº 1686)
- SDK do JavaScript
- Correção da regressão na forma como o transcritor da conversa restringiu o áudio.
- Java
- Arquivos POM e Javadocs atualizados publicados temporariamente na Maven Central para permitir que o pipeline de documentos atualize documentos de referência online.
- Python
- Correção da regressão em que speak_text(ssml) Python retorna void.
SDK de Fala 1.24.0: versão de outubro de 2022
Novos recursos
- Todas as linguagens de programação: AMR-WB (16khz) adicionada à lista com suporte de formatos de saída de áudio de Conversão de texto em fala
- Python: pacote adicionado para Linux Arm64 para distribuições Linux com suporte.
- C#/C++/Java/Python: Suporte adicionado ao streaming direto do ALAW e MULAW para o serviço de fala (além do fluxo de PCM existente) usando
AudioStreamWaveFormat
. - C# MAUI: pacote NuGet atualizado para dar suporte a destinos do Android para desenvolvedores do .NET MAUI (problema do cliente)
- Mac: adicionado um XCframework separado para Mac, que não contém binários iOS. Isso oferece uma opção para desenvolvedores que precisam apenas de binários Mac usando um pacote XCframework menor.
- Microsoft Audio Stack (MAS):
- Quando os ângulos de formação de feixe forem especificados, o som originado fora do intervalo especificado terá melhor supressão.
- Redução de aproximadamente 70% no tamanho do
libMicrosoft.CognitiveServices.Speech.extension.mas.so
para Linux ARM32 e Linux Arm64.
- Reconhecimento de intenção usando padrões correspondentes:
- Adicionar suporte de ortografia para os idiomas
fr
,de
,es
,jp
- Adicionado suporte a inteiros predefinidos para o idioma
es
.
- Adicionar suporte de ortografia para os idiomas
Correções de bug
- iOS: corrigir o erro de síntese de fala no iOS 16 causado por falha de decodificação de áudio compactado (problema do cliente).
- JavaScript:
- Corrigir o token de autenticação que não está funcionando ao obter a lista de vozes de síntese de fala (problema do cliente).
- Usar a URL de dados para carregamento de trabalho (problema do cliente).
- Criar um worklet de processador de áudio somente quando o AudioWorklet tiver suporte no navegador (problema do cliente). Esta foi uma contribuição da comunidade de William Wong. Obrigado, William!
- Corrigir o retorno de chamada reconhecido quando a resposta
connectionMessage
do LUIS estiver vazia (problema do cliente). - Definir corretamente o tempo limite de segmentação de fala.
- Reconhecimento de intenção usando padrões correspondentes:
- Os caracteres não json dentro de modelos agora são carregados corretamente.
- Corrigir o problema de suspensão quando
recognizeOnceAsync(text)
foi chamado durante o reconhecimento contínuo.
SDK de Fala 1.23.0: versão de julho de 2022
Novos recursos
- C#, C++, Java: adicionado suporte para os idiomas
zh-cn
ezh-hk
no Reconhecimento de Intenção com Padrões Correspondentes. - C#: adicionado suporte para builds
AnyCPU
do .NET Framework
Correções de bug
- Android: correção da vulnerabilidade OpenSSL CVE-2022-2068 atualizando o OpenSSL para 1.1.1q
- Python: correção da falha ao usar PushAudioInputStream
- iOS: correção de "EXC_BAD_ACCESS: tentativa de desreferenciar ponteiro nulo", conforme relatado no iOS (problema do GitHub)
SDK de Fala 1.22.0: versão de junho de 2022
Novos recursos
- Java: API IntentRecognitionResult para getEntities(), applyLanguageModels() e recognizeOnceAsync(text) adicionada para dar suporte ao mecanismo de “padrões correspondentes simples”.
- Unity: suporte adicionado para Mac M1 (Apple Silicon) para pacote Unity (problema do GitHub)
- C#: suporte adicionado para x86_64 para o Xamarin Android (problema do GitHub)
- C#: a versão mínima do .NET Framework atualizada para o pacote v4.6.2 para SDK C# como v4.6.1 desativada (confira a Política de Ciclo de Vida do Componente do Microsoft .NET Framework)
- Linux: suporte adicionado para Debian 11 e Ubuntu 22.04 LTS. O Ubuntu 22.04 LTS requer a instalação manual do libssl1.1 como um pacote binário por aqui (por exemplo, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb ou mais recente para x64) ou a compilação por meio de fontes.
Correções de bug
- UWP: dependência OpenSSL removida das bibliotecas UWP e substituída por WebsSocket WinRT e APIs do HTTP para atender à conformidade de segurança e menor volume binário.
- Mac: corrigido o problema "Módulo MicrosoftCognitiveServicesSpeech não encontrado" ao usar projetos Swift direcionados à plataforma macOS
- Windows, Mac: corrigido um problema específico da plataforma em que as fontes de áudio que eram configuradas por meio de propriedades para serem transmitidas a uma taxa em tempo real às vezes ficavam para trás e eventualmente excediam a capacidade
Amostras (GitHub)
- C#: .exemplos de estrutura .NET atualizados para usar a v4.6.2
- Unity: exemplo de assistente virtual corrigido para Android e UWP
- Unity: exemplos do Unity atualizados para a versão LTS do Unity 2020
SDK de Fala 1.21.0: versão de abril de 2022
Novos recursos
- Java e JavaScript: Suporte adicionado para Identificação Contínua de Idioma ao usar o objeto SpeechRecognizer
- JavaScript: APIs de Diagnóstico adicionadas para habilitar o registro em log do console e o registro em log de arquivo (somente nó) para ajudar a Microsoft a solucionar problemas relatados pelo cliente
- Python: adicionado suporte para transcrição de conversas
- Go: adicionado suporte para Reconhecimento do Locutor
- C++ e C#: Suporte adicionado para um grupo obrigatório de palavras no Reconhecedor de Intenções (padrões correspondentes simples). Por exemplo: "(definir|iniciar|começar) um temporizador" em que os termos "definir", "iniciar" ou "começar" devem estar presentes para que a intenção seja reconhecida.
- Todas as linguagens de programação, sintetização de fala: adicionada a propriedade de duração nos eventos de limite de palavras. Adicionado suporte para limites de pontuação e de sentença
- Objective-C/Swift/Java: adicionados resultados em nível de palavra no objeto de resultado da Avaliação de Pronúncia (semelhante ao C#). O aplicativo não precisa mais analisar uma cadeia de caracteres de resultado JSON para obter informações em nível de palavra (problema do GitHub)
- Plataforma iOS: adicionado suporte experimental à arquitetura ARMv7
Correções de bug
- Plataforma iOS: correção para permitir a criação do destino "Qualquer dispositivo iOS", ao usar o CocoaPod (problema do GitHub)
- Plataforma Android: a versão do OpenSSL foi atualizada para 1.1.1n a fim de corrigir a vulnerabilidade de segurança CVE-2022-0778
- JavaScript: corrigido o problema em que o cabeçalho wav não era atualizado com o tamanho do arquivo (problema do GitHub)
- JavaScript: corrigido o problema de dessincronização da ID da solicitação que está interrompendo os cenários de tradução (problema do GitHub)
- JavaScript: corrigido problema ao instanciar SpeakerAudioDestination sem fluxo (problema do GitHub)
- C++: corrigidos cabeçalhos do C++ para remover aviso ao compilar para C++ 17 ou mais recente
Amostras do GitHub
- Novos exemplos de Java para Reconhecimento de Fala com Identificação de Idioma
- Novos exemplos de Python e de Java para Transcrição de Conversas
- Novo exemplo de Go para Reconhecimento de Locutor
- Nova ferramenta de C++ e C# para Windows que enumera todos os dispositivos de captura e renderização de áudio para localiar a ID do dispositivo. Essa ID será necessária ao SDK de Fala se você planeja capturar ou renderizar áudios de/para dispositivos não padrão.
SDK de Fala 1.20.0: versão de janeiro de 2022
Novos recursos
- Objective-C, Swift e Python: adição de suporte para DialogServiceConnector, usado para cenários de assistente de voz.
- Python: adição de suporte para o Python 3.10. O suporte para o Python 3.6 foi removido, de acordo com o fim da vida útil da versão 3.6 do Python.
- Unity: o SDK de Fala já é compatível com os aplicativos do Unity no Linux.
- C++, C#: o IntentRecognizer com o uso de padrões correspondentes já é compatível com o C#. Além disso, já há suporte para cenários com entidades personalizadas, grupos opcionais e funções de entidade em C++ e em C#.
- C++, C#: log de rastreamento de diagnóstico aprimorado com as novas classes FileLogger, MemoryLogger e EventLogger. Os logs do SDK são uma ferramenta importante para a Microsoft diagnosticar problemas relatados pelo cliente. Essas novas classes facilitam para os clientes a integração dos logs do SDK de Fala em um sistema próprio de log.
- Todas as linguagens de programação: PronunciationAssessmentConfig já tem propriedades para definir o alfabeto de fonemas desejado (IPA ou SAPI) e a Contagem de Fonemas de N melhores (evitando a necessidade de criar um JSON de configuração de acordo com o problema 1284 do GitHub). Além disso, já há suporte para a saída de nível de sílaba.
- Android, iOS e macOS (todas as linguagens de programação): o GStreamer não é mais necessário para dar suporte a redes com largura de banda limitada. O SpeechSynthesizer já usa as funcionalidades de decodificação de áudio do sistema operacional para decodificar o áudio compactado transmitido do serviço de conversão de texto em fala.
- Todas as linguagens de programação: o SpeechSynthesizer já dá suporte a três novos formatos do Opus de saída brutos (sem contêiner), que são amplamente usados em cenários de transmissão ao vivo.
- JavaScript: adição da API getVoicesAsync() a SpeechSynthesizer para recuperar a lista de vozes de sintetização compatíveis (problema 1350 do GitHub)
- JavaScript: adição da API getWaveFormat() a AudioStreamFormat para dar suporte a formatos wave não PCM (problema 452 do GitHub)
- JavaScript: adição do volume getter/setter e das APIs mute()/unmute() a SpeakerAudioDestination (problema 463 do GitHub)
Correções de bug
- C++, C#, Java, JavaScript, Objective-C e Swift: correção para remover um atraso de dez segundos durante a interrupção de um reconhecedor de fala que usa um PushAudioInputStream. Isso ocorre quando nenhum áudio novo é enviado por push depois que StopContinuousRecognition é chamado (problemas 1318 e 331 do GitHub)
- Unity no Android e na UWP: correção dos metadados do Unity para a UWP, Android ARM64 e WSA (Subsistema Windows para Android) Arm64 (Problema 1360 do GitHub)
- iOS: a compilação do seu aplicativo do SDK de Fala em qualquer dispositivo iOS durante o uso do CocoaPods já foi corrigida (problema 1320 do GitHub)
- iOS: quando o SpeechSynthesizer é configurado para gerar um áudio diretamente em um alto-falante, a reprodução é interrompida no início em raras condições. Esse problema foi corrigido.
- JavaScript: use o fallback de processador de script para a entrada de microfone se nenhum worklet de áudio for encontrado (problema 455 do GitHub)
- JavaScript: adição de protocolo ao agente para atenuar o bug encontrado na integração do Sentry (problema 465 do GitHub)
Amostras do GitHub
- Exemplos de C++, C#, Python e Java que mostram como obter resultados de reconhecimento detalhados. Os detalhes incluem resultados de reconhecimento alternativo, pontuação de confiança, forma lexical, forma normalizada, forma normalizada mascarada, com o tempo de nível de palavra para cada um.
- Adição de exemplo do iOS usando o AVFoundation como a fonte de áudio externa.
- Adição de exemplo do Java para mostrar como obter formato SRT (SubRip Text) usando o evento WordBoundary.
- Exemplos do Android para avaliação de pronúncia.
- C++ e C# mostrando o uso das novas classes de log de diagnósticos.
SDK de Fala 1.19.0: 2021: versão de novembro
Destaques
O Serviço de Reconhecimento do Locutor já está com disponibilidade geral (GA). As APIs do SDK de Fala estão disponíveis em C++, C#, Java e JavaScript. Com o Reconhecimento do Locutor, é possível verificar e identificar com precisão os locutores pelas características de voz exclusivas deles. Para obter mais informações sobre esse tópico, confira a documentação.
Removemos o suporte para o Ubuntu 16.04 em conjunto com o Azure DevOps e o GitHub. O Ubuntu 16.04 alcançou o fim da vida útil em abril de 2021. Migre os fluxos de trabalho do Ubuntu 16.04 para o Ubuntu 18.04 ou mais recente.
A vinculação de OpenSSL em binários do Linux mudou para dinâmico. O tamanho binário do Linux foi reduzido em cerca de 50%.
Adição de suporte ao silício baseado no ARM do Mac M1.
Novos recursos
C++/C#/Java: novas APIs adicionadas para habilitar o suporte ao processamento de áudio para entrada de fala com a Microsoft Audio Stack. Documentação aqui.
C++ : novas APIs para reconhecimento de intenção para facilitar a correspondência de padrões mais avançados. Isso inclui as entidades de Lista e Inteiros predefinidos, bem como suporte para Agrupamento de intenções e entidades como modelos (documentação, atualizações e exemplos estão em desenvolvimento e serão publicados em um futuro próximo).
Mac: suporte para silício com base em Arm64 (M1) para pacotes CocoaPod, Python, Java e NuGet relacionados ao Problema 1244 do GitHub.
iOS/Mac: agora, os binários de iOS e macOS estão empacotados em xcframework relacionado ao Problema GitHub 919.
iOS/Mac: suporte para catalisador Mac relacionado ao Problema GitHub 1171.
Linux: novo pacote tar adicionado para CentOS7 Sobre o SDK de Fala. O pacote .tar do Linux agora contém bibliotecas específicas para RHEL/CentOS 7 no
lib/centos7-x64
. As bibliotecas do SDK de Fala em lib/x64 ainda são aplicáveis a todas as outras distribuições compatíveis do Linux x64 (incluindo RHEL/CentOS 8) e não funcionarão no RHEL/CentOS 7.JavaScript: APIs de VoiceProfile e SpeakerRecognizer tornadas assíncronas/aguardáveis.
JavaScript: suporte adicionado para regiões de Governo dos EUA do Azure.
Windows: suporte adicionado para reprodução em Plataforma Universal do Windows (UWP).
Correções de bug
Android: atualização de segurança do OpenSSL (atualizada para a versão 1.1.1l) para pacotes Android.
Python: resolução de bug em que a seleção de dispositivo do locutor no Python falha.
Core: reconectar automaticamente quando uma tentativa de conexão falha.
iOS: compactação de áudio desabilitada em pacotes do iOS devido a problemas de instabilidade e compilação de bitcode ao usar o GStreamer. Veja os detalhes no Problema GitHub 1209.
Amostras do GitHub
Mac/iOS: exemplos atualizados e inícios rápidos para usar o pacote xcframework.
.NET: amostras atualizadas para usar a versão .NET core 3.1.
JavaScript: adição de exemplo para assistentes de voz.
SDK de Fala 1.18.0: versão de julho de 2021
Nota: comece a usar o SDK de Fala aqui.
Resumo de destaques
- O Ubuntu 16.04 alcançou o fim da vida útil em abril de 2021. Com o Azure DevOps e o GitHub, removeremos o suporte ao 16.04 em setembro de 2021. Migre os fluxos de trabalho do ubuntu-16.04 para o ubuntu-18.04 ou mais recente até essa data.
Novos recursos
- C++ : agora, os padrões correspondentes de linguagem simples com o reconhecedor de intenção facilita a implementação de cenários de reconhecimento de intenção simples.
- C++/C#/Java: adicionamos uma nova API,
GetActivationPhrasesAsync()
, à classeVoiceProfileClient
para receber uma lista de frases de ativação válidas na fase de registro do Reconhecimento do Locutor para cenários de reconhecimento independentes.- Importante: o recurso Reconhecimento do Locutor está em versão prévia. Todos os perfis de voz criados na versão prévia serão encerrados 90 dias depois que o recurso Reconhecimento do Locutor avançar de versão prévia para disponibilidade geral. Nesse ponto, os perfis de voz de versão prévia deixarão de funcionar.
- Python: adição de suporte à LID (identificação de idioma) contínua nos objetos
SpeechRecognizer
eTranslationRecognizer
existentes. - Python: adição de um novo objeto Python chamado
SourceLanguageRecognizer
para fazer a LID única ou contínua (sem reconhecimento nem tradução). - JavaScript: adição da API
getActivationPhrasesAsync
à classeVoiceProfileClient
para receber uma lista de frases de ativação válidas na fase de registro do Reconhecimento do Locutor para cenários de reconhecimento independentes. - Agora, é possível aguardar a API
enrollProfileAsync
do JavaScriptVoiceProfileClient
de modo assíncrono. Veja este código de identificação independente, por exemplo, uso.
Aprimoramentos
- Java: adição do suporte a AutoCloseable para muitos objetos Java. Agora, o modelo de experimentação com recursos é aceito para liberar recursos. Veja este exemplo que usa a experimentação com recursos. Confira também o tutorial de documentação do Oracle Java para ver A instrução sobre experimentação com recursos e aprender esse padrão.
- O volume dos discos foi reduzido significativamente para muitas plataformas e arquiteturas. Exemplos do binário
Microsoft.CognitiveServices.Speech.core
: o Linux x64 é 475 KB menor (redução de 8,0%); o Arm64 Windows UWP é 464 KB menor (redução de 11,5%); o Windows x86 é 343 KB menor (redução de 17,5%); e o Windows x64 é 451 KB menor (redução de 19,4%).
Correções de bug
- Java: correção do erro de sintetização quando o texto de síntese contém caracteres alternativos. Veja os detalhes aqui.
- JavaScript: agora, o processamento de áudio do microfone do navegador usa
AudioWorkletNode
em vez do preteridoScriptProcessorNode
. Veja os detalhes aqui. - JavaScript: as conversas são mantidas ativas corretamente durante os cenários de tradução de conversas de execução prolongada. Veja os detalhes aqui.
- JavaScript: correção de um problema em que o reconhecedor se reconecta a um mediastream em reconhecimento contínuo. Veja os detalhes aqui.
- JavaScript: correção de um problema em que o reconhecedor se reconecta a um pushStream em reconhecimento contínuo. Veja os detalhes aqui.
- JavaScript: correção do cálculo de deslocamento em nível de palavra em resultados de reconhecimento detalhados. Veja os detalhes aqui.
Exemplos
- Veja os exemplos de início rápido do Java atualizados aqui.
- Os exemplos em JavaScript de Reconhecimento do Locutor foram atualizados para mostrar o novo uso de
enrollProfileAsync()
. Veja exemplos aqui.
SDK de Fala 1.17.0: versão de maio de 2021
Observação
Faça a introdução ao SDK de Fala aqui.
Resumo de destaques
- Menor volume – continuamos a diminuir a memória e o volume em disco do SDK de Fala e seus componentes.
- Uma nova API autônoma Identificação de Idioma permite que você reconheça o idioma que está sendo falado.
- Desenvolva aplicativos de jogos e realidade misturada habilitados para fala usando o Unity no macOS.
- Agora você pode usar a conversão de texto em fala, além do reconhecimento de fala da linguagem de programação Go.
- Várias correções de bugs para resolver problemas que VOCÊS, nossos estimados clientes, sinalizaram no GitHub. OBRIGADO! Continue enviando comentários!
Novos recursos
- C++/C#: nova detecção de Idioma autônoma inicial e contínua por meio da API
SourceLanguageRecognizer
. Se você quiser apenas detectar os idiomas falados no conteúdo do áudio, essa é a API a ser usada. Veja mais detalhes para C++ e C#. - C++/C#: o Reconhecimento de Fala e o Reconhecimento de Tradução agora dão suporte à Identificação de Idioma inicial e contínua para que você possa determinar de modo programático quais idiomas estão sendo falados antes que eles sejam transcritos ou traduzidos. Consulte a documentação aqui para o Reconhecimento de fala e aqui para a Tradução de fala.
- C#: suporte adicionado ao Unity para macOS (x64). Isso desbloqueia os casos de uso do reconhecimento de fala e da síntese de fala em realidade misturada e jogos!
- Go: adicionamos suporte para a conversão de texto em fala de sintetização de fala para a linguagem de programação Go, a fim de disponibilizar a síntese de fala em mais casos de uso. Consulte nosso guia de início rápido ou nossa documentação de referência.
- C++/C#/Java/Python/Objective-C/Go: o sintetizador de fala agora suporta o objeto
connection
. Isso ajuda a gerenciar e monitorar a conexão com o serviço de Fala, sendo especialmente útil para fazer uma pré-conexão a fim de reduzir a latência. Confira a documentação aqui. - C++/C#/Java/Python/Objective-C/Go: agora exponhamos a latência e o tempo de insuficiência no
SpeechSynthesisResult
para ajudar a monitorar e diagnosticar problemas de latência de síntese de fala. Para saber mais, consulte C++, C#, Java, Python, Objective-C e Go. - C++/C#/Java/Python/Objective-C: agora, a Conversão de texto em fala usa vozes neurais por padrão quando você não especifica uma voz a ser usada. Isso proporciona saídas com maior fidelidade por padrão, mas também aumenta o preço padrão. Você pode especificar qualquer uma de nossas mais de 70 vozes padrão ou mais de 130 vozes neurais para alterar o padrão.
- C++/C#/Java/Python/Objective-C/Go: adicionamos a propriedade Gênero às informações de voz de síntese para facilitar a seleção de vozes com base no gênero. Isso resolve o problema nº 1055 do GitHub.
- C++, C#, Java, JavaScript: já damos suporte a
retrieveEnrollmentResultAsync
,getAuthorizationPhrasesAsync
egetAllProfilesAsync()
no Reconhecimento do Locutor para facilitar o gerenciamento de usuários de todos os perfis de voz de determinada conta. Consulte a documentação para C++, C#, Java e JavaScript. Isso resolve o problema nº 338 do GitHub. - JavaScript: adicionamos a repetição para falhas de conexão, aprimorando os aplicativos de fala baseados em JavaScript.
Aprimoramentos
- Os binários do SDK de Fala do Linux e do Android foram atualizados para usar a versão mais recente do OpenSSL (1.1.1k)
- Melhorias no tamanho do código:
- O Reconhecimento vocal agora está dividido em uma biblioteca "lu" separada.
- O tamanho binário principal do Windows x64 diminuiu em 14,4%.
- O tamanho binário principal do Android Arm64 diminuiu em 13,7%.
- outros componentes também diminuíram de tamanho.
Correções de bug
- Todos: corrigido o problema nº 842 do GitHub para ServiceTimeout. Agora você pode transcrever arquivos de áudio muito longos usando o SDK de Fala sem conexão com o serviço que termina com esse erro. No entanto, ainda recomendamos que você use a transcrição em lote para arquivos longos.
- C# : corrigido o problema nº 947 do GitHub em que nenhuma entrada de fala poderia deixar seu aplicativo em um estado ruim.
- Java: corrigido o problema n°. 997 do GitHub em que o SDK de Fala para Java 1.16 falha ao usar o DialogServiceConnector sem uma conexão de rede ou uma chave de assinatura inválida.
- Correção de uma falha quando o reconhecimento de fala é interrompido abruptamente (por exemplo, usando CTRL+C no aplicativo de console).
- Java: adicionada uma correção para excluir arquivos temporários no Windows ao usar o SDK de Fala para Java.
- Java: corrigido o problema nº 994 do GitHub em que chamar
DialogServiceConnector.stopListeningAsync
poderia resultar em um erro. - Java: corrigido um problema de cliente no início rápido do assistente virtual.
- JavaScript: foi corrido o problema nº 366 do GitHub em que
ConversationTranslator
gerava um erro 'this.cancelSpeech não é uma função'. - JavaScript: corrigido o problema nº 298 do GitHub em que o exemplo reproduzido soava em voz alta ‘Obter resultado como um fluxo na memória’.
- JavaScript: foi corrigido o problema nº 350 do GitHub em que a chamada a
AudioConfig
podia resultar em um erro 'ReferenceError: MediaStream não está definido'. - JavaScript: corrigido o alerta UnhandledPromiseRejection no Node.js para sessões de longa execução.
Exemplos
- Atualize a documentação de exemplos do Unity para macOS aqui.
- Uma exemplo do React Native para o serviço de reconhecimento de Fala de IA do Azure agora está disponível aqui.
SDK de Fala 1.16.0: versão de março de 2021
Observação
O SDK de Fala no Windows depende dos Pacotes Redistribuíveis do Microsoft Visual C++ para Visual Studio 2015, 2017 e 2019 compartilhados. Baixe aqui.
Novos recursos
- C++/C#/Java/Python: migração para a última versão do GStreamer (1.18.3) para adição de suporte à transcrição de qualquer formato de mídia no Windows, no Linux e no Android. Confira a documentação aqui.
- C++/C#/Java/Objective-C/Python: adição de suporte à decodificação de áudio sintetizado/TTS compactado ao SDK. Se você definir o formato de áudio de saída como PCM e o GStreamer estiver disponível no sistema, o SDK solicitará automaticamente o áudio compactado do serviço para economizar largura de banda e decodificar o áudio no cliente. Defina
SpeechServiceConnection_SynthEnableCompressedAudioTransmission
comofalse
para desabilitar esse recurso. Veja mais detalhes para C++, C#, Java, Objective-C e Python. - JavaScript: os usuários do Node.js já podem usar a API
AudioConfig.fromWavFileInput
. Isso resolve o problema nº 252 do GitHub. - C++/C#/Java/Objective-C/Python: a adição do método
GetVoicesAsync()
à TTS retorna todas as vozes de sintetização disponíveis. Veja mais detalhes para C++, C#, Java, Objective-C e Python. - C++/C#/Java/JavaScript/Objective-C/Python: adição do evento
VisemeReceived
para a sintetização de voz/TTS para retornar a animação de visema síncrona. Confira a documentação aqui. - C++/C#/Java/JavaScript/Objective-C/Python: adição do evento
BookmarkReached
para TTS. Defina indicadores no SSML de entrada e obter os deslocamentos de áudio de cada indicador. Confira a documentação aqui. - Java: adição de suporte para APIs de Reconhecimento do Locutor. Veja os detalhes aqui.
- C++/C#/Java/JavaScript/Objective-C/Python: adição de dois novos formatos de áudio de saída com o contêiner WebM para TTS (Webm16Khz16BitMonoOpus e Webm24Khz16BitMonoOpus). Esses são formatos melhores para streaming de áudio com o codec Opus. Veja mais detalhes para C++, C#, Java, JavaScript, Objective-C e Python.
- C++/C#/Java: adição de suporte para recuperar o perfil de voz para o cenário de Reconhecimento do Locutor. Veja mais detalhes para C++, C# e Java.
- C++/C#/Java/Objective-C/Python: adição de suporte à biblioteca compartilhada separada para o microfone de áudio e o controle de alto-falante. Isso permite que o desenvolvedor use o SDK em ambientes que não têm dependências de biblioteca de áudio necessárias.
- Objective-C/Swift: adição de suporte para a estrutura de módulo com cabeçalho de abrangência. Isso permite que o desenvolver importe o SDK de Fala como um módulo em aplicativos Objective-C/Swift no iOS/no Mac. Isso resolve o problema nº 452 do GitHub.
- Python: adição de suporte para o Python 3.9 e remoção de suporte para o Python 3.5 de acordo com o fim da vida útil do Python para 3.5.
Problemas conhecidos
- C++/C#/Java:
DialogServiceConnector
não pode usar umCustomCommandsConfig
para acessar um aplicativo de Comandos Personalizados, pois ocorrerá um erro de conexão. Isso pode ser solucionado adicionando manualmente a ID do aplicativo à solicitação comconfig.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)
. O comportamento esperado deCustomCommandsConfig
será restaurado na próxima versão.
Aprimoramentos
- Como parte de nosso esforço de várias versões para reduzir o uso de memória e o volume em disco do SDK de Fala, os binários do Android já são 3% a 5% menores.
- Melhor precisão e legibilidade. Confira também as seções da documentação de referência do C# aqui.
Correções de bug
- JavaScript: os cabeçalhos grandes de arquivos WAV agora são analisados corretamente (aumento da fatia do cabeçalho para 512 bytes). Isso resolve o problema nº 962 do GitHub.
- JavaScript: correção do problema de tempo de microfone quando o fluxo do microfone termina antes da conclusão do reconhecimento, resolvendo um problema de não funcionamento do reconhecimento de fala no Firefox.
- JavaScript: agora, tratamos corretamente da promessa de inicialização quando o navegador força o desligamento do microfone antes da conclusão de turnOn.
- JavaScript: substituímos a dependência de URL pela análise de URL. Isso resolve o problema nº 264 do GitHub.
- Android: correção de retornos de chamada que não funcionavam quando
minifyEnabled
era definido como verdadeiro. - C++/C#/Java/Objective-C/Python:
TCP_NODELAY
será definido corretamente como a E/S de soquete subjacente da TTS a fim de reduzir a latência. - C++/C#/Java/Python/Objective-C/Go: correção de uma falha ocasional em que o reconhecedor era destruído logo após o início de um reconhecimento.
- C++/C#/Java: correção de uma falha ocasional na destruição do reconhecedor de locutor.
Exemplos
- JavaScript: os exemplos do navegador não exigem mais um download separado do arquivo de biblioteca JavaScript.
SDK de Fala 1.15.0: versão de janeiro de 2021
Observação
O SDK de Fala no Windows depende dos Pacotes Redistribuíveis do Microsoft Visual C++ para Visual Studio 2015, 2017 e 2019 compartilhados. Baixe aqui.
Resumo de destaques
- Memória e espaço em disco menores, tornando o SDK mais eficiente.
- Formatos de saída de alta fidelidade disponíveis para a versão prévia privada da sintetização de voz personalizada.
- O Reconhecedor de Intenção agora pode retornar mais do que a intenção principal, dando a você a capacidade de fazer uma avaliação separada sobre a intenção do cliente.
- Agora os bots e assistentes de voz estão mais fáceis de configurar e você pode fazê-los parar de escutar imediatamente, além de exercer maior controle sobre como eles respondem aos erros.
- Aprimoramento no desempenho do dispositivo, tornando a compactação opcional.
- Uso do SDK de Fala no Windows ARM/Arm64.
- Aprimoramento da depuração de nível baixo.
- O recurso Avaliação de Pronúncia já está mais amplamente disponível.
- Várias correções de bugs para resolver problemas que VOCÊS, nossos estimados clientes, sinalizaram no GitHub. OBRIGADO! Continue enviando comentários!
Aprimoramentos
- O SDK de Fala agora é mais eficiente e leve. Iniciamos um esforço de várias versões para reduzir o uso de memória e o volume em disco do SDK de Fala. Como uma primeira etapa, fizemos reduções significativas no tamanho do arquivo em bibliotecas compartilhadas na maioria das plataformas. Em comparação com a versão 1.14:
- As bibliotecas do Windows compatíveis com o UWP de 64 bits são aproximadamente 30% menores.
- As bibliotecas do Windows de 32 bits ainda não registraram um aprimoramento de tamanho.
- As bibliotecas do Linux são 20 a 25% menores.
- As bibliotecas do Android são 3 a 5% menores.
Novos recursos
- Todas as linguagens: novos formatos de saída de 48 kHz disponíveis para a versão prévia privada da Voz Neural Personalizada por meio da API de sintetização de fala TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm e riff-48khz-16bit-mono-pcm.
- Todas as linguagens: a Voz Personalizada também ficou mais fácil de usar. Adição de suporte para configuração da Voz Personalizada por meio de
EndpointId
(EndpointId
, C#, Java, JavaScript, Objective-C e Python). Antes dessa alteração, os usuários da Voz Personalizada precisavam definir a URL do ponto de extremidade por meio do métodoFromEndpoint
. Agora, os clientes podem usar o métodoFromSubscription
como vozes predefinidas e fornecer a ID de implantação configurandoEndpointId
. Isso simplifica a configuração de vozes personalizadas. - C++/C#/Java/Objective-C/Python: obtenha mais do que a intenção principal do
IntentRecognizer
. Agora, ele dá suporte à configuração de um resultado JSON que contém todas as intenções e não apenas a intenção com a pontuação mais alta por meio do métodoLanguageUnderstandingModel FromEndpoint
usando o parâmetro de URIverbose=true
. Isso resolve o problema nº 880 do GitHub. Veja a documentação atualizada aqui. - C++/C#/Java: faça com que o seu assistente de voz ou bot pare de escutar imediatamente. O
DialogServiceConnector
(C++, C# e Java) agora tem um métodoStopListeningAsync()
para acompanharListenOnceAsync()
. Isso interromperá imediatamente a captura de áudio e aguardará normalmente um resultado, tornando-o perfeito para uso com cenários de pressionamento de botão "Parar agora". - C++/C#/Java/JavaScript: faça com que o seu assistente de voz ou bot reaja melhor aos erros do sistema subjacentes. O
DialogServiceConnector
(C++, C#, Java e JavaScript) agora tem um novo manipulador de eventosTurnStatusReceived
. Esses eventos opcionais correspondem a cada resoluçãoITurnContext
no bot e relatarão as falhas de execução de turno quando elas ocorrerem, por exemplo, como resultado de uma exceção sem tratamento, do tempo limite ou de uma queda de rede entre o Direct Line Speech e o bot.TurnStatusReceived
facilita a resposta às condições de falha. Por exemplo, se um bot levar muito tempo em uma consulta de banco de dados de back-end (por exemplo, pesquisando um produto), oTurnStatusReceived
permitirá que o cliente saiba reformular o que disse com "Desculpe, não entendi muito bem. Poderia tentar novamente?" ou algo semelhante. - C++/C# : uso do SDK de Fala em mais plataformas. O pacote NuGet do SDK de Fala agora dá suporte a binários nativos da área de trabalho do Windows ARM/Arm64 (já havia suporte para a UWP) a fim de tornar o SDK de Fala mais útil em mais tipos de computadores.
- Java: o
DialogServiceConnector
agora tem um métodosetSpeechActivityTemplate()
que não foi excluído intencionalmente da linguagem anteriormente. Isso é equivalente a definir a propriedadeConversation_Speech_Activity_Template
e solicitará que todas as futuras atividades do Bot Framework originadas pelo serviço do Direct Line Speech mesclem o conteúdo fornecido no respectivo conteúdo JSON. - Java: aprimoramento da depuração de nível baixo. Agora, a classe
Connection
tem um eventoMessageReceived
, semelhante a outras linguagens de programação (C++ e C#). Esse evento fornece acesso de baixo nível aos dados de entrada do serviço e pode ser útil para diagnóstico e depuração. - JavaScript: configuração mais fácil para assistentes de voz e bots por meio do
BotFrameworkConfig
, que agora tem métodos de alocadorfromHost()
efromEndpoint()
que simplificam o uso de localizações de serviço personalizadas comparado à definição manual de propriedades. Também padronizamos a especificação opcional debotId
para usar um bot não padrão entre os alocadores de configuração. - JavaScript: aprimoramento no desempenho do dispositivo por meio da propriedade de controle de cadeia de caracteres adicionada para compactação do WebSocket. Por motivos de desempenho, desabilitamos a compactação do WebSocket por padrão. Isso pode ser habilitado novamente para cenários de baixa largura de banda. Mais detalhes aqui. Isso resolve o problema nº 242 do GitHub.
- JavaScript: adição de suporte à Avaliação de Pronúncia para habilitar a avaliação de pronúncia de fala. Confira o guia de início rápido aqui.
Correções de bug
- Todas as linguagens (exceto JavaScript): correção de uma regressão na versão 1.14, em que a memória em excesso era alocada pelo reconhecedor.
- C++: correção de um problema de coleta de lixo com o
DialogServiceConnector
, resolvendo o problema nº 794 do GitHub. - C# : correção de um problema com o desligamento de thread que fazia com que os objetos fossem bloqueados por aproximadamente um segundo quando descartados.
- C++/C#/Java: correção de uma exceção que impedia um aplicativo de definir o token de autorização de fala ou o modelo de atividade mais de uma vez em um
DialogServiceConnector
. - C++/C#/Java: correção de uma falha do reconhecedor devido a uma condição de corrida na desinstalação.
- JavaScript: anteriormente, o
DialogServiceConnector
não respeitava o parâmetrobotId
opcional especificado nos alocadores deBotFrameworkConfig
. Com isso, foi necessário definir o parâmetro de cadeia de consultabotId
manualmente para uso de um bot não padrão. O bug foi corrigido, e os valoresbotId
fornecidos para os alocadores deBotFrameworkConfig
serão respeitados e usados, incluindo as novas adiçõesfromHost()
efromEndpoint()
. Isso também se aplica ao parâmetroapplicationId
deCustomCommandsConfig
. - JavaScript: correção do problema nº 881 do GitHub, permitindo a reutilização do objeto do reconhecedor.
- JavaScript: correção de um problema em que o SKD enviava
speech.config
várias vezes em uma sessão da TTS, desperdiçando largura de banda. - JavaScript: simplificação do tratamento de erro na autorização do microfone, permitindo que mensagens mais descritivas sejam exibidas quando o usuário não tiver permitido a entrada do microfone no navegador.
- JavaScript: correção do problema nº 249 do GitHub, em que os erros de tipo em
ConversationTranslator
eConversationTranscriber
causavam um erro de compilação para usuários do TypeScript. - Objective-C: correção de um problema em que o build do GStreamer falhava para o iOS no Xcode 11.4, resolvendo o problema nº 911 do GitHub.
- Python: correção do problema nº 870 do GitHub, removendo "DeprecationWarning: o módulo imp foi preterido para dar lugar a importlib".
Exemplos
- O exemplo de arquivo de navegador de JavaScript agora usa arquivos para reconhecimento de fala. Isso resolve o problema nº 884 do GitHub.
SDK de Fala 1.14.0: versão de outubro de 2020
Observação
O SDK de Fala no Windows depende dos Pacotes Redistribuíveis do Microsoft Visual C++ para Visual Studio 2015, 2017 e 2019 compartilhados. Baixe aqui.
Novos recursos
- Linux: adição de suporte para Debian 10 e Ubuntu 20.04 LTS.
- Python/Objective-C: adição de suporte para a API
KeywordRecognizer
. Encontre a documentação aqui. - C++/Java/C #: adição de suporte para definição de qualquer chave/valor
HttpHeader
por meio deServicePropertyChannel::HttpHeader
. - JavaScript: adição de suporte para a API
ConversationTranscriber
. Leia a documentação aqui. - C++/C#: adição do novo método
AudioDataStream FromWavFileInput
(para leitura de arquivos .WAV) aqui (C++) e aqui (C#). - C++/C#/Java/Python/Objective-C/Swift: adicionado um método de
stopSpeakingAsync()
para interromper a sintetização da conversão de texto em fala. Leia a documentação de referência aqui (C++), aqui (C#), aqui (Java), aqui (Python) e aqui (Objective-C/Swift). - C# e C++ e Java: adição de uma função
FromDialogServiceConnector()
à classeConnection
que pode ser usada para monitorar eventos de conexão e desconexão doDialogServiceConnector
. Leia a documentação de referência aqui (C#), aqui (C++) e aqui (Java). - C++/C#/Java/Python/Objective-C/Swift: adição de suporte à avaliação de pronúncia, que avalia a pronúncia da fala e fornece comentários aos locutores sobre a precisão e a fluência do áudio falado. Leia a documentação aqui.
Alteração da falha
- JavaScript: PullAudioOutputStream.read() tem uma alteração do tipo de retorno de uma promessa interna para uma promessa de JavaScript nativa.
Correções de bug
- Todas as linguagens: correção da regressão da versão 1.13 em
SetServiceProperty
, na qual os valores com alguns caracteres especiais eram ignorados. - C# : correção de exemplos de console do Windows no Visual Studio 2019 que não localizavam DLLs nativas.
- C#: correção de uma falha com o gerenciamento de memória quando o fluxo era usado como a entrada do
KeywordRecognizer
. - Objective-C/Swift: correção de uma falha com o gerenciamento de memória quando o fluxo era usado como a entrada do reconhecedor.
- Windows: correção de problema de coexistência com o BT HFP/A2DP na UWP.
- JavaScript: correção de mapeamento das IDs de sessão para aprimorar o log e auxiliar nas correlações internas de depuração/serviço.
- JavaScript: adição de correção para o
DialogServiceConnector
desabilitar as chamadasListenOnce
depois que a primeira chamada é feita. - JavaScript: correção do problema em que a saída do resultado sempre era apenas "simples".
- JavaScript: correção de um problema de reconhecimento contínuo no Safari no macOS.
- JavaScript: mitigação de carga de CPU para o cenário de alta taxa de transferência de solicitação.
- JavaScript: permissão de acesso aos detalhes do resultado do Registro do Perfil de Voz.
- JavaScript: adição de correção para reconhecimento contínuo no
IntentRecognizer
. - C++/C#/Java/Python/Swift/Objective-C: correção de uma URL incorreta para australiaeast e brazilsouth no
IntentRecognizer
. - C++/C#: adição de
VoiceProfileType
como um argumento na criação de um objetoVoiceProfile
. - C++/C#/Java/Python/Swift/Objective-C: correção de um
SPX_INVALID_ARG
potencial na tentativa de lerAudioDataStream
de determinada posição. - iOS: correção de uma falha com o reconhecimento de fala no Unity
Exemplos
- Objective-C: adição de um exemplo para o reconhecimento de palavra-chave aqui.
- C#/JavaScript: adição de um guia de início rápido da transcrição de conversas aqui (C#) e aqui (JavaScript).
- C++/C#/Java/Python/Swift/Objective-C: adição de um exemplo da Avaliação de Pronúncia aqui
Problema conhecido
- Por padrão, não há suporte para o certificado DigiCert Global Root G2 no HoloLens 2 e no Android 4.4 (KitKat). Ele precisa ser adicionado ao sistema para tornar o SDK de Fala funcional. O certificado será adicionado às imagens do sistema operacional do HoloLens 2 em um futuro próximo. Os clientes do Android 4.4 precisam adicionar o certificado atualizado ao sistema.
Testes reduzidos devido à COVID-19
Por conta do trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual quanto normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter causado alguma interrupção, e tudo foi aprovado em nossos testes automatizados. No caso improvável de termos perdido algo, informe-nos no GitHub.
Cuide-se!
SDK de Fala 1.13.0: versão de julho de 2020
Observação
O SDK de Fala no Windows depende dos Pacotes Redistribuíveis do Microsoft Visual C++ para Visual Studio 2015, 2017 e 2019 compartilhados. Baixe-o e instale-o aqui.
Novos recursos
- C# : adição de suporte para transcrição de conversas assíncrona. Confira a documentação aqui.
- JavaScript: adição de suporte ao Reconhecimento do Locutor no navegador e no Node.js.
- JavaScript: adição de suporte para Identificação de Idioma/ID de idioma. Confira a documentação aqui.
- Objective-C: adição de suporte para conversa em vários dispositivos e transcrição de conversas.
- Python: adição de suporte de áudio compactado para o Python no Windows e no Linux. Confira a documentação aqui.
Correções de bug
- Todas as linguagens: correção de um problema que fazia com que o KeywordRecognizer não avançasse nos fluxos após um reconhecimento.
- Todas as linguagens: correção de um problema que fazia com que o fluxo obtido de um KeywordRecognitionResult não contivesse a palavra-chave.
- Todas as linguagens: correção de um problema em que o SendMessageAsync não enviava realmente a mensagem pela conexão depois que os usuários paravam de aguardar.
- Todas as linguagens: correção de uma falha nas APIs de Reconhecimento do Locutor quando os usuários chamavam o método VoiceProfileClient::SpeakerRecEnrollProfileAsync várias vezes e não aguardavam a conclusão das chamadas.
- Todas as linguagens: correção da habilitação do log de arquivo nas classes VoiceProfileClient e SpeakerRecognizer.
- JavaScript: correção de um problema com a limitação quando o navegador era minimizado.
- JavaScript: correção de um problema com uma perda de memória nos fluxos.
- JavaScript: adição de um cache para as respostas de OCSP do NodeJS.
- Java: correção de um problema que fazia com que os campos BigInteger sempre retornassem 0.
- iOS: correção de um problema com a publicação de aplicativos baseados no SDK de Fala na iOS App Store.
Exemplos
- C++ : adição de um código de exemplo para o Reconhecimento do Locutor aqui.
Testes reduzidos devido à COVID-19
Por conta do trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual quanto normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter causado alguma interrupção, e tudo foi aprovado em nossos testes automatizados. No caso improvável de termos perdido algo, informe-nos no GitHub.
Cuide-se!
SDK de Fala 1.12.1: versão de junho de 2020
Novos recursos
- C#, C++: versão prévia do Reconhecimento do Locutor: esse recurso permite a identificação do locutor (quem está falando?) e a verificação do locutor (é o locutor que afirma ser?). Confira a documentação de visão geral.
Correções de bug
- C e C++: correção da gravação do microfone que não funcionava na versão 1.12 no Reconhecimento do Locutor.
- JavaScript: correções da Conversão de texto em fala no Firefox e no Safari, no macOS e no iOS.
- Correção da falha na violação de acesso do verificador de aplicativos do Windows na transcrição de conversas durante o uso do fluxo de oito canais.
- Correção de uma falha na violação de acesso do verificador de aplicativos do Windows na tradução de conversas em vários dispositivos.
Exemplos
- C#: exemplo de código do Reconhecimento do Locutor.
- C++: exemplo de código do Reconhecimento do Locutor.
- Java: exemplo de código para o reconhecimento de intenção no Android.
Testes reduzidos devido à COVID-19
Por conta do trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual quanto normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter causado alguma interrupção, e tudo foi aprovado em nossos testes automatizados. No caso improvável de termos perdido algo, informe-nos no GitHub.
Cuide-se!
SDK de Fala 1.12.0: versão de maio de 2020
Novos recursos
- Go: suporte à nova linguagem Go para reconhecimento de fala e assistente de voz personalizado. Configure seu ambiente de desenvolvimento aqui. Para obter o código de exemplo, confira a seção Exemplos abaixo.
- JavaScript: adicionado suporte ao navegador para a conversão de texto em fala. Confira a documentação aqui.
- C++, C# e Java: suporte às APIs e ao novo objeto
KeywordRecognizer
nas plataformas Windows, Android, Linux e iOS. Leia a documentação aqui. Para obter o código de exemplo, confira a seção Exemplos abaixo. - Java: adição de conversa em vários dispositivos com suporte à tradução. Confira o documento de referência aqui.
Aprimoramentos e otimizações
- JavaScript: otimização da implementação do microfone do navegador, aprimorando a precisão do reconhecimento de fala.
- Java: refatoração das associações por meio da implementação de JNI direta sem o SWIG. Essa alteração reduz em dez vezes o tamanho das associações de todos os pacotes Java usados para Windows, Android, Linux e Mac, além de facilitar o desenvolvimento adicional da implementação Java do SDK de Fala.
- Linux: atualização da documentação de suporte com as últimas notas específicas sobre o RHEL 7.
- Aprimoramento da lógica de conexão para várias tentativas de conexão quando ocorrem erros de serviço e de rede.
- Atualização da página de Início Rápido de Fala em portal.azure.com para ajudar os desenvolvedores a executarem a próxima etapa na jornada de Fala de IA do Azure.
Correções de bug
- C# e Java: correção de um problema com o carregamento de bibliotecas do SDK no ARM do Linux (de 32 e 64 bits).
- C#: correção do descarte explícito de identificadores nativos para os objetos TranslationRecognizer, IntentRecognizer e Connection.
- C# : correção do gerenciamento do tempo de vida de entrada de áudio para o objeto ConversationTranscriber.
- Correção de um problema em que o motivo do resultado de
IntentRecognizer
não era definido corretamente no reconhecimento de intenções com frases simples. - Correção de um problema em que o deslocamento do resultado de
SpeechRecognitionEventArgs
não era definido corretamente. - Correção de uma condição de corrida em que o SDK tentava enviar uma mensagem de rede antes de abrir a conexão do WebSocket. Era reproduzível para
TranslationRecognizer
durante a adição de participantes. - Correção de perdas de memória no mecanismo reconhecedor de palavras-chave.
Exemplos
- Go: adição de guias de início rápido para o reconhecimento de fala e o assistente de voz personalizado. Encontre o código de exemplo aqui.
- JavaScript: adição de guias de início rápido para a Conversão de texto em fala, a Tradução e o Reconhecimento de Intenção.
- Exemplos de reconhecimento de palavras-chave para C# e Java (Android).
Testes reduzidos devido à COVID-19
Por conta do trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual quanto normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter causado alguma interrupção, e tudo foi aprovado em nossos testes automatizados. Se perdemos algo, conte-nos no GitHub.
Cuide-se!
SDK de Fala 1.11.0: versão de março de 2020
Novos recursos
- Linux: adição de suporte para RHEL (Red Hat Enterprise Linux)/CentOS 7 x64.
- Linux: adição de suporte para o .NET Core C# no Linux ARM32 e Arm64. Leia mais aqui.
- C# e C++: adição de
UtteranceId
emConversationTranscriptionResult
, uma ID consistente em todos os intermediários e o resultado do reconhecimento de fala final. Veja mais detalhes para C# e C++. - Python: adição de suporte para
Language ID
. Confira speech_sample.py no repositório GitHub. - Windows: adição de suporte ao formato de entrada de áudio compactado na plataforma Windows para todos os aplicativos de console do Win32. Veja os detalhes aqui.
- JavaScript: suporte à sintetização de voz (conversão de texto em fala) no NodeJS. Saiba mais aqui.
- JavaScript: adição de novas APIs para habilitar a inspeção de todas as mensagens enviadas e recebidas. Saiba mais aqui.
Correções de bug
- C# e C++: correção de um problema. Agora,
SendMessageAsync
envia uma mensagem binária como um tipo binário. Veja mais detalhes para C# e C++. - C# e C++: correção de um problema em que o uso do evento
Connection MessageReceived
podia causar uma falha quandoRecognizer
era descartado antes do objetoConnection
. Veja mais detalhes para C# e C++. - Android: o tamanho do buffer de áudio do microfone diminuiu de 800 ms para 100 ms a fim de aprimorar a latência.
- Android: correção de um problema com o emulador do Android x86 no Android Studio.
- JavaScript: adição de suporte para regiões na China com a API
fromSubscription
. Veja os detalhes aqui. - JavaScript: adição de mais informações de erro para falhas de conexão do NodeJS.
Exemplos
- Unity: correção do exemplo público de reconhecimento de intenção, em que a importação de JSON do LUIS falhava. Veja os detalhes aqui.
- Python: adição de exemplo para
Language ID
. Veja os detalhes aqui.
Testes reduzidos devido à COVID-19: devido ao trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual de dispositivo quanto normalmente fazemos. Por exemplo, não pudemos testar a entrada do microfone e a saída do locutor no Linux, no iOS e no macOS. Não fizemos nenhuma alteração que achamos que poderia causado alguma interrupção nessas plataformas, e tudo foi aprovado em nossos testes automatizados. É improvável que esteja faltando algo, mas se estiver, informe-nos no GitHub.
Agradecemos seu apoio contínuo. Como sempre, poste perguntas ou comentários no GitHub ou no Stack Overflow.
Cuide-se!
SDK de Fala 1.10.0: versão de fevereiro de 2020
Novos recursos
- Adição de pacotes do Python para dar suporte à nova versão 3.8 do Python.
- Suporte para o RHEL (Red Hat Enterprise Linux)/o CentOS 8 x64 (C++, C#, Java e Python).
Observação
Os clientes precisam configurar o OpenSSL de acordo com estas instruções.
- Suporte do Linux ARM32 para Debian e Ubuntu.
- O DialogServiceConnector agora dá suporte a um parâmetro opcional "ID do bot" em BotFrameworkConfig. Esse parâmetro permite o uso de vários bots do Direct Line Speech com um único recurso de Fala. Sem o parâmetro especificado, o bot padrão (conforme determinado pela página de configuração de canal do Direct Line Speech) será usado.
- O DialogServiceConnector agora tem uma propriedade SpeechActivityTemplate. O conteúdo dessa cadeia de caracteres JSON será usado pelo Direct Line Speech para pré-preencher diversos campos compatíveis em todas as atividades que chegam a um bot do Direct Line Speech. Isso inclui atividades geradas automaticamente em resposta a eventos como reconhecimento de fala.
- A TTS agora usa a chave de assinatura para autenticação, reduzindo a latência de primeiro byte do primeiro resultado da sintetização após a criação de um sintetizador.
- Atualização dos modelos de reconhecimento de fala para 19 localidades com uma redução média da taxa de erros de palavra de 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT e tr-TR). Os novos modelos trazem aprimoramentos significativos em vários domínios, incluindo cenários de ditado, transcrição de call center e indexação de vídeo.
Correções de bug
- Correção de um bug em que o transcritor de conversas não aguardava corretamente nas APIs Java
- Correção do emulador do Android x86 para o problema do GitHub referente ao Xamarin
- Adição dos métodos de propriedade (Get|Set) ausentes em AudioConfig
- Correção de um bug da TTS em que o audioDataStream não podia ser interrompido quando a conexão falhava
- O uso de um ponto de extremidade sem uma região causava falhas de USP no tradutor de conversas
- A geração de ID em Aplicativos Universais do Windows agora usa um algoritmo de GUID apropriadamente exclusivo. Anteriormente e de maneira não intencional, ele usava o padrão de implementação fragmentada que costumava produzir colisões em grandes conjuntos de interações.
Exemplos
- Exemplo do Unity para o uso do SDK de Fala com o streaming do modo push e o microfone do Unity
Outras alterações
SDK de Fala 1.9.0: versão de janeiro de 2020
Novos recursos
- Conversa em vários dispositivos: conecte vários dispositivos à mesma fala ou conversa baseada em texto e, opcionalmente, traduza as mensagens enviadas entre eles. Saiba mais neste artigo.
- Adição de suporte de reconhecimento de palavras-chave ao pacote
.aar
do Android e adição de suporte para as variantes x86 e x64. - Objective-C: adição dos métodos
SendMessage
eSetMessageProperty
ao objetoConnection
. Confira a documentação aqui. - Agora, a API da TTS para C++ dá suporte a
std::wstring
como a entrada de texto de sintetização, removendo a necessidade de converter um wstring em uma cadeia de caracteres antes de transmiti-lo para o SDK. Veja os detalhes aqui. - C#: a ID de idioma e a configuração do idioma de origem já estão disponíveis.
- JavaScript: adição de um recurso ao objeto
Connection
para transmitir mensagens personalizadas do serviço de Fala como um retorno de chamadareceivedServiceMessage
. - JavaScript: adição de suporte a
FromHost API
para facilitar o uso com contêineres locais e nuvens soberanas. Confira a documentação aqui. - JavaScript: agora
NODE_TLS_REJECT_UNAUTHORIZED
é respeitado graças a uma contribuição deNODE_TLS_REJECT_UNAUTHORIZED
. Veja os detalhes aqui.
Alterações interruptivas
- O
OpenSSL
foi atualizado para a versão 1.1.1b e é vinculado estaticamente à biblioteca principal do SDK de Fala para Linux. Poderá haver uma interrupção se oOpenSSL
de caixa de entrada não for instalado no diretório/usr/lib/ssl
do sistema. Confira a documentação do SDK de Fala para encontrar uma solução alternativa para o problema. - Alteramos o tipo de dados retornado para
WordLevelTimingResult.Offset
em C# deint
paralong
a fim de permitir o acesso aosWordLevelTimingResults
quando os dados de fala forem maiores do que dois minutos. - O
PushAudioInputStream
e oPullAudioInputStream
agora enviam informações de cabeçalho WAV para o serviço de Fala com base emAudioStreamFormat
, opcionalmente especificado quando eles são criados. Agora, os clientes precisam usar o formato de entrada de áudio compatível. Qualquer outro formato terá resultados de reconhecimento abaixo do ideal ou poderá causar outros problemas.
Correções de bug
- Confira a atualização do
OpenSSL
em Alterações interruptivas acima. Corrigimos uma falha intermitente e um problema de desempenho (contenção de bloqueio sob alta carga) no Linux e no Java. - Java: aprimoramentos no fechamento de objetos em cenários de alta simultaneidade.
- Reestruturação do nosso pacote NuGet. Removemos as três cópias de
Microsoft.CognitiveServices.Speech.core.dll
eMicrosoft.CognitiveServices.Speech.extension.kws.dll
nas pastas da biblioteca, tornando o pacote NuGet menor e mais rápido para download e adicionamos os cabeçalhos necessários para compilar alguns aplicativos nativos do C++. - Encontre os exemplos de início rápido corrigidos aqui. Eles saiam sem exibir a exceção "Microfone não encontrado" no Linux, no macOS e no Windows.
- Correção de uma falha do SDK com longos resultados de reconhecimento de fala em alguns caminhos de código como este exemplo.
- Correção de um erro de implantação do SDK no ambiente do Aplicativo Web do Azure para resolver este problema do cliente.
- Correção de um erro na TTS durante o uso da marca
<voice>
múltipla ou da marca<audio>
para resolver<voice>
. - Correção de um erro 401 na TTS quando o SDK era recuperado do estado suspenso.
- JavaScript: correção de uma importação circular de dados de áudio graças a uma contribuição de euirim.
- JavaScript: adição de suporte para definir propriedades de serviço, conforme adicionado na versão 1.7.
- JavaScript: correção de um problema em que um erro de conexão podia resultar em tentativas de reconexão contínuas e sem êxito do WebSocket.
Exemplos
- Adição de exemplo de reconhecimento de palavras-chave para Android aqui.
- Adição de exemplo na TTS para o cenário de servidor aqui.
- Adição de guias de início rápido de conversa em vários dispositivos para C# e C++ aqui.
Outras alterações
- Otimização do tamanho da biblioteca principal do SDK no Android.
- O SDK da versão 1.9.0 em diante dá suporte aos tipos
int
estring
no campo de versão da assinatura de voz para o transcritor de conversas.
SDK de Fala 1.8.0: versão de novembro de 2019
Novos recursos
- Adição de uma API
FromHost()
para facilitar o uso com contêineres locais e nuvens soberanas. - Adição de Identificação de Idioma de Origem para o Reconhecimento de fala (em Java e C++)
- Adição do objeto
SourceLanguageConfig
para reconhecimento de fala, usado para especificar os idiomas de origem esperados (em Java e C++) - Adição de suporte a
KeywordRecognizer
no Windows (UWP), no Android e no iOS por meio dos pacotes NuGet e Unity - Adição da API Java de Conversa Remota para fazer a transcrição de conversas em lotes assíncronos.
Alterações interruptivas
- Migração das funcionalidades do transcritor de conversas para o namespace
Microsoft.CognitiveServices.Speech.Transcription
. - Migração de algumas partes dos métodos do transcritor de conversas para a nova classe
Conversation
. - Remoção do suporte para o iOS de 32 bits (ARMv7 e x86)
Correções de bug
- Correção de uma falha quando o
KeywordRecognizer
local era usado sem uma chave de assinatura válida do serviço de Fala
Exemplos
- Exemplo do Xamarin para
KeywordRecognizer
- Exemplo do Unity para
KeywordRecognizer
- Exemplos de C++ e Java para Identificação de Automática de Idioma de Origem.
SDK de Fala 1.7.0: versão de setembro de 2019
Novos recursos
- Adição de suporte beta para o Xamarin no UWP (Plataforma Universal do Windows), no Android e no iOS
- Adição de suporte do iOS para Unity
- Adição de suporte de entrada
Compressed
para ALaw, Mulaw e FLAC no Android, iOS e Linux - Adição de
SendMessageAsync
à classeConnection
para envio de uma mensagem ao serviço - Adição de
SetMessageProperty
à classeConnection
para definição da propriedade de uma mensagem - Adição de associações da TTS para Java (JRE e Android), Python, Swift e Objective-C
- Adição de suporte à reprodução da TTS para macOS, iOS e Android.
- Adição de informações de "limite de palavra" à TTS.
Correções de bug
- Correção do problema de build do IL2CPP no Unity 2019 para Android
- Correção do problema com o processamento incorreto de cabeçalhos malformados na entrada de arquivo WAV
- Correção do problema com UUIDs que não eram exclusivos em algumas propriedades de conexão
- Correção de alguns avisos sobre especificadores de nulidade nas associações do Swift (pode exigir pequenas alterações de código)
- Correção de um bug que fazia com que as conexões do WebSocket fossem fechadas de modo anormal sob carga de rede
- Correção de um problema no Android que, às vezes, resultava no uso de IDs de impressão duplicadas pelo
DialogServiceConnector
- Aprimoramentos na estabilidade de conexões entre interações de várias rodadas e o relatório de falhas (por meio de eventos
Canceled
) quando elas ocorriam com oDialogServiceConnector
- Agora, os inícios da sessão do
DialogServiceConnector
fornecerão eventos, incluindo ao chamarListenOnceAsync()
durante umStartKeywordRecognitionAsync()
ativo - Correção de uma falha associada ao recebimento das atividades do
DialogServiceConnector
Exemplos
- Guia de início rápido do Xamarin
- Atualização do guia de início rápido do CPP com informações do Linux Arm64
- Atualização do guia de início rápido do Unity com informações do iOS
SDK de Fala 1.6.0: versão de junho de 2019
Exemplos
- Exemplos de início rápido para a conversão de texto em fala no UWP e no Unity
- Exemplo de início rápido para o Swift no iOS
- Exemplos do Unity para Reconhecimento de Fala e Intenção e Tradução
- Atualização dos exemplos de início rápido para
DialogServiceConnector
Melhorias/Alterações
- Namespace de caixa de diálogo:
SpeechBotConnector
foi renomeado paraDialogServiceConnector
BotConfig
foi renomeado paraDialogServiceConfig
BotConfig::FromChannelSecret()
foi renomeado paraDialogServiceConfig::FromBotSecret()
- Todos os clientes do Direct Line Speech existentes continuam tendo suporte após a renomeação
- Atualização do adaptador REST da TTS para dar suporte à conexão persistente por proxy
- Aprimoramento da mensagem de erro exibida quando uma região inválida era transmitida
- Swift/Objective-C:
- Aprimoramento do relatório de erros: os métodos que podem resultar em um erro agora estão presentes em duas versões: uma que expõe um objeto
NSError
para tratamento de erro e outra que gera uma exceção. Os primeiros são expostos ao Swift. Essa alteração exige adaptações no código SWIFT existente. - Aprimoramento da manipulação de eventos
- Aprimoramento do relatório de erros: os métodos que podem resultar em um erro agora estão presentes em duas versões: uma que expõe um objeto
Correções de bug
- Correção para TTS: em que o
SpeakTextAsync
futuro era retornado sem aguardar até que o áudio concluísse a renderização - Correção para o marshaling de cadeias de caracteres em C# para habilitar o suporte completo ao idioma
- Correção de um problema do aplicativo .NET Core para carregar a biblioteca principal com a estrutura de destino net461 em exemplos
- Correção de problemas ocasionais para implantar bibliotecas nativas na pasta de saída em exemplos
- Correção do fechamento confiável de soquete da Web
- Correção de uma possível falha durante a abertura de uma conexão sob carga pesada no Linux
- Correção de metadados ausentes no pacote da estrutura para macOS
- Correção para problemas com
pip install --user
no Windows
SDK de Fala 1.5.1
Essa é uma versão de correção de bug que afeta apenas o SDK nativo/gerenciado. Ela não afeta a versão JavaScript do SDK.
Correções de bug
- Correção de FromSubscription quando usada com a transcrição de conversas.
- Correção de um bug na detecção de palavras-chave para assistentes de voz.
SDK de Fala 1.5.0: versão de maio de 2019
Novos recursos
- A KWS (detecção de palavras-chave) já está disponível para o Windows e o Linux. A funcionalidade da KWS pode ser usada com qualquer tipo de microfone, o suporte oficial da KWS, mas, atualmente, está limitada às matrizes de microfone encontradas no hardware do Azure Kinect DK ou no SDK de Dispositivos de Fala.
- A funcionalidade de dica de frase está disponível por meio do SDK. Para mais informações, consulte aqui.
- A funcionalidade de transcrição de conversas está disponível por meio do SDK.
- Adição de suporte para assistentes de voz que usam o Direct Line Speech.
Exemplos
- Adição de exemplos para novos recursos ou novos serviços compatíveis com o SDK.
Melhorias/Alterações
- Adição de várias propriedades do reconhecedor para ajustar o comportamento ou os resultados do serviço (como mascaramento de conteúdo ofensivo e outros).
- Agora você pode configurar o reconhecedor por meio das propriedades de configuração padrão, mesmo que você tenha criado o
FromEndpoint
do reconhecedor. - Objective-C: adição da propriedade
OutputFormat
aSPXSpeechConfiguration
. - O SDK agora dá suporte ao Debian 9 como uma distribuição do Linux.
Correções de bug
- Corrigido um problema em que o recurso do locutor era destruído cedo demais na conversão de texto em fala.
SDK de Fala 1.4.2
Essa é uma versão de correção de bug que afeta apenas o SDK nativo/gerenciado. Ela não afeta a versão JavaScript do SDK.
SDK de Fala 1.4.1
Esta é uma versão somente em JavaScript. Nenhum recurso foi adicionado. Foram feitas as seguintes correções:
- Prevenção do carregamento do https-proxy-agent pelo do webpack.
SDK de Fala 1.4.0: versão de abril de 2019
Novos recursos
- O SDK agora dá suporte ao serviço de Conversão de texto em fala como uma versão beta. Há suporte na área de trabalho do Windows e do Linux por meio do C++ e do C#. Para obter mais informações, confira a Visão geral da conversão de texto em fala.
- O SDK agora dá suporte a arquivos de áudio MP3 e Opus/OGG como arquivos de entrada de fluxo. Esse recurso só está disponível no Linux por meio do C++ e do C# e, no momento, está na versão beta (mais detalhes aqui).
- O SDK de Fala para Java, .NET Core, C++ e Objective-C ganhou suporte para macOS. Atualmente, o suporte a Objective-C para macOS está na versão beta.
- iOS: o SDK de Fala para iOS (Objective-C) agora também é publicado como um CocoaPod.
- JavaScript: suporte para microfone não padrão como um dispositivo de entrada.
- JavaScript: suporte a proxy para Node.js.
Exemplos
- Adição de exemplos de uso do SDK de Fala com o C++ e o Objective-C no macOS.
- Adição de exemplos que demonstram o uso do serviço de Conversão de texto em fala.
Melhorias/Alterações
- Python: agora, as propriedades adicionais dos resultados do reconhecimento são expostas por meio da propriedade
properties
. - Para obter suporte adicional de desenvolvimento e depuração, redirecione as informações de log e diagnóstico do SDK para um arquivo de log (mais detalhes aqui).
- JavaScript: aprimoramento do desempenho de processamento de áudio.
Correções de bug
- Mac/iOS: correção de um bug que resultava em uma longa espera quando uma conexão com o serviço de Fala não podia ser estabelecida.
- Python: aprimoramento do tratamento de erro para argumentos em retornos de chamada do Python.
- JavaScript: correção do relatório de estado incorreto para a fala encerrada em RequestSession.
SDK de Fala 1.3.1: atualização de fevereiro de 2019
Essa é uma versão de correção de bug que afeta apenas o SDK nativo/gerenciado. Ela não afeta a versão JavaScript do SDK.
Correção de bug
- Correção de uma perda de memória durante o uso da entrada do microfone. A entrada de arquivo ou baseada em fluxo não foi afetada.
SDK de Fala 1.3.0: versão de fevereiro de 2019
Novos recursos
- O SDK de Fala dá suporte à seleção do microfone de entrada por meio da classe
AudioConfig
. Isso permite que você transmita dados de áudio para o serviço de Fala de um microfone não padrão. Para obter mais informações, confira a documentação que descreve a seleção do dispositivo de entrada de áudio. Esse recurso ainda não está disponível no JavaScript. - O Speech SDK agora dá suporte ao Unity em uma versão beta. Envie comentários por meio da seção de problemas no repositório GitHub de exemplo. Essa versão dá suporte ao Unity no Windows x86 e x64 (área de trabalho ou aplicativos da Plataforma Universal do Windows) e Android (ARM32/64, x86). Mais informações estão disponíveis em nosso início rápido do Unity.
- O arquivo
Microsoft.CognitiveServices.Speech.csharp.bindings.dll
(fornecido em versões anteriores) não é mais necessário. A funcionalidade agora está integrada ao SDK do Core.
Exemplos
O novo conteúdo a seguir está disponível no nosso repositório de exemplo:
- Exemplos adicionais para
AudioConfig.FromMicrophoneInput
. - Mais exemplos do Python para conversão e reconhecimento de intenção.
- Exemplos adicionais para usar o objeto
Connection
no iOS. - Exemplos adicionais de Java para tradução com saída de áudio.
- Novo exemplo para usar a API REST de Transcrição de Lote.
Melhorias/Alterações
- Python
- Aprimoramento da verificação de parâmetro e mensagens de erro em
SpeechConfig
. - Adição de suporte para o objeto
Connection
. - Suporte para Python de 32 bits (x86) no Windows.
- O Speech SDK para Python está fora do beta.
- Aprimoramento da verificação de parâmetro e mensagens de erro em
- iOS
- O SDK agora é construído com relação ao SDK versão 12.1 do iOS.
- O SDK agora dá suporte a iOS versões 9.2 e posteriores.
- Melhore a documentação de referência e conserte vários nomes de propriedade.
- JavaScript
- Adição de suporte para o objeto
Connection
. - Adicione arquivos de definição de tipo para JavaScript agrupado
- Suporte inicial e implementação para dicas de frase.
- Retornar a coleção de propriedades com o serviço de JSON para reconhecimento
- Adição de suporte para o objeto
- DLLs do Windows agora contêm um recurso de versão.
- Se você criar um
FromEndpoint
do reconhecedor, poderá adicionar parâmetros diretamente à URL do ponto de extremidade. Usando oFromEndpoint
, você não pode configurar o reconhecedor por meio das propriedades de configuração padrão.
Correções de bug
- O nome de usuário de proxy e a senha de proxy vazios não foram tratados corretamente. Com esta versão, se você definir o nome de usuário do proxy e a senha do proxy como uma cadeia de caracteres vazia, eles não serão enviados durante a conexão com o proxy.
- As SessionIds criadas pelo SDK nem sempre eram realmente aleatórias para algumas linguagens/ambientes. Adição da inicialização aleatória do gerador para corrigir esse problema.
- Melhore o tratamento do token de autorização. Se você quiser usar um token de autorização, especifique
SpeechConfig
e deixe a chave de assinatura vazia. Em seguida, crie o reconhecedor como de costume. - Em alguns casos, o objeto
Connection
não era liberado corretamente. Esse problema foi corrigido. - O exemplo de JavaScript foi corrigido para dar suporte para saída de áudio para síntese de conversão também no Safari.
Speech SDK 1.2.1
Esta é uma versão somente em JavaScript. Nenhum recurso foi adicionado. Foram feitas as seguintes correções:
- Acionar o final do fluxo no turn.end, não no speech.end.
- Correção de um bug na bomba de áudio que não agendava o próximo envio em caso de falha do envio atual.
- Consertar reconhecimento contínuo com o token de autenticação.
- Correção de bug para diferentes reconhecedores/pontos de extremidade.
- Melhorias na documentação.
SDK de Fala 1.2.0: versão de dezembro de 2018
Novos recursos
- Python
- A versão Beta do suporte do Python (3.5 e posterior) está disponível com esta versão. Para saber mais, acesse aqui](../../quickstart-python.md).
- JavaScript
- Objeto
Connection
- No
Recognizer
, você pode acessar um objetoConnection
. Esse objeto permite iniciar a conexão de serviço e inscrever-se para se conectar e desconectar de eventos explicitamente. (Esse recurso ainda não está disponível no JavaScript e no Python.)
- No
- Suporte para Ubuntu 18.04.
- Android
- Suporte do ProGuard habilitado durante a geração de APK.
Aprimoramentos
- Melhorias no uso de thread interno, reduzindo o número de threads, bloqueios e exclusões mútuas.
- Relatório/informações de erros aprimorados. Em vários casos, as mensagens de erro não eram propagadas por completo.
- As dependências de desenvolvimento atualizadas do JavaScript para usar módulos atualizados.
Correções de bug
- Correção de perdas de memória devido a tipos incompatíveis em
RecognizeAsync
. - Em alguns casos, as exceções foram sendo vazadas.
- Corrigindo o vazamento de memória em argumentos de evento de tradução.
- Corrigido um problema de bloqueio na reconexão longa de sessões em execução.
- Correção de um problema que podia levar a um resultado final ausente para traduções com falha.
- C#: quando uma operação
async
não era colocada em espera no thread principal, era possível que o reconhecedor fosse descartado antes da conclusão da tarefa assíncrona. - Java: correção de um problema que resultava em uma falha da VM Java.
- Objective-C: correção do mapeamento de enumeração: em vez de
RecognizingIntent
, RecognizedIntent era retornado. - JavaScript: definição do formato de saída padrão como 'simples' em
SpeechConfig
. - JavaScript: remoção da inconsistência entre as propriedades no objeto de configuração em JavaScript e em outras linguagens.
Exemplos
- Atualização e correção de vários exemplos (por exemplo, vozes de saída para tradução etc.).
- Adicionados exemplos do Node. js no repositório de exemplo.
SDK de Fala 1.1.0
Novos recursos
- Suporte para Android x86/x64.
- Suporte de proxy: no objeto
SpeechConfig
, agora você pode chamar uma função para definir as informações do proxy (nome do host, porta, nome de usuário e senha). Esse recurso ainda não está disponível no iOS. - Melhor código de erro e mensagens. Se um reconhecimento retornou um erro, isso já definiu
Reason
(no evento cancelado) ouCancellationDetails
(no resultado do reconhecimento) paraError
. O evento cancelado agora contém dois membros adicionais,ErrorCode
eErrorDetails
. Se o servidor retornou informações de erro adicionais com o erro relatado, agora ele estará disponível nos novos membros.
Aprimoramentos
- Adicionada verificação adicional na configuração do reconhecedor e adicionada outra mensagem de erro.
- Manipulação aprimorada de silêncio de longa duração no meio de um arquivo de áudio.
- Pacote NuGet: para projetos do .NET Framework, ele impede a construção com a configuração AnyCPU.
Correções de bug
- Corrigido várias exceções encontradas em reconhecedores. Além disso, as exceções são capturadas e convertidas em evento
Canceled
. - Corrigir um vazamento de memória no gerenciamento de propriedades.
- Corrigido o erro no qual um arquivo de entrada de áudio poderia travar o reconhecedor.
- Corrigido um bug no qual os eventos podiam ser recebidos após um evento de parada da sessão.
- Corrigidas algumas condições de corrida no threading.
- Corrigido um problema de compatibilidade do iOS que poderia resultar em uma falha.
- Melhorias de estabilidade para suporte de microfone Android.
- Corrigido um erro em que um reconhecedor em JavaScript ignoraria o idioma de reconhecimento.
- Correção de um bug que impedia a definição de
EndpointId
(em alguns casos) no JavaScript. - Alteração da ordem dos parâmetros em AddIntent no JavaScript e adição de uma assinatura JavaScript
AddIntent
ausente.
Exemplos
- Adição de exemplos do C++ e do C# para uso de fluxo de pull e push no repositório de exemplos.
SDK de Fala 1.0.1
Melhorias na confiabilidade e correções de bugs:
- Corrigido erro fatal potencial devido à condição de corrida no reconhecedor de descarte
- Correção de erro fatal potencial quando ocorriam propriedades não definidas.
- Adicionado erro adicional e verificação de parâmetros.
- Objective-C: corrigido possível erro fatal causado por substituição de nome em NSString.
- Objective-C: visibilidade ajustada da API
- JavaScript: corrigido em relação a eventos e cargas.
- Melhorias na documentação.
Em nosso repositório de exemplos, um novo exemplo para JavaScript foi adicionado.
SDK de Fala de IA do Azure 1.0.0: versão de setembro de 2018
Novos recursos
- Suporte para Objective-C no iOS. Confira nosso Início Rápido do Objective-C para iOS.
- Suporte para JavaScript no navegador. Confira nosso Início Rápido do JavaScript.
Alterações interruptivas
- Com esta versão, várias alterações interruptivas foram introduzidas. Confira esta página para obter detalhes.
SDK de Fala de IA do Azure 0.6.0: versão de agosto de 2018
Novos recursos
- Os aplicativos UWP criados com o SDK de Fala agora podem ser aprovados pelo WACK (Kit de Certificação de Aplicativos Windows). Confira o Início Rápido do UWP.
- Suporte para .NET Standard 2.0 no Linux (Ubuntu 16.04 x64).
- Experimental: dê suporte Java 8 no Windows (64 bits) e no Linux (Ubuntu 16.04 x64). Confira o Início Rápido do Java Runtime Environment.
Alteração funcional
- Expor informações de detalhe de erro adicionais sobre erros de conexão.
Alterações interruptivas
- No Java (Android), a função
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate
não requer mais um parâmetro de caminho. Agora, o caminho é detectado automaticamente em todas as plataformas com suporte. - O get-accessor da propriedade
EndpointUrl
em Java e C# foi removido.
Correções de bug
- Em Java, o resultado da síntese de áudio no reconhecedor de tradução agora está implementado.
- Foi corrigido um bug que podia causar threads inativos e um grande número de soquetes abertos e não usados.
- Foi corrigido um problema em que o reconhecimento de execução longa podia terminar no meio da transmissão.
- Corrigida uma condição de corrida no desligamento do reconhecedor.
SDK de Fala de IA do Azure 0.5.0: versão de julho de 2018
Novos recursos
- Suporte a plataforma Android (API 23: Android 6.0 Marshmallow ou superior). Confira o Início Rápido para Android.
- Suporte para .NET Standard 2.0 no Windows. Confira o Início Rápido para .NET Core.
- Experimental: Suporte a UWP no Windows (versão 1709 ou posterior).
- Confira o Início Rápido do UWP.
- Observe que os aplicativos UWP criados com o SDK de Fala ainda não foram aprovados pelo WACK (Kit de Certificação de Aplicativos do Windows).
- Suporte ao reconhecimento de execução longa com reconexão automática.
Alterações funcionais
- O
StartContinuousRecognitionAsync()
dá suporte ao reconhecimento de execução longa. - O resultado do reconhecimento contém mais campos. Eles são deslocados do início do áudio e da duração (ambos em tiques) do texto reconhecido e dos valores adicionais que representam o status de reconhecimento, por exemplo,
InitialSilenceTimeout
eInitialBabbleTimeout
. - Suporte para AuthorizationToken para criar instâncias de fábrica.
Alterações interruptivas
- Eventos de reconhecimento: o tipo de evento
NoMatch
foi mesclado no eventoError
. - O SpeechOutputFormat em C# foi renomeado para
OutputFormat
a fim de permanecer alinhado com o C++. - O tipo de retorno de alguns métodos da interface
AudioInputStream
foi um pouco alterado:- Em Java, o método
read
agora retornalong
em vez deint
. - Em C#, o método
Read
agora retornauint
em vez deint
. - Em C++, os métodos
Read
eGetFormat
agora retornamsize_t
em vez deint
.
- Em Java, o método
- C++: as instâncias de fluxos de entrada de áudio agora podem ser passadas apenas como um
shared_ptr
.
Correções de bug
- Foram corrigidos os valores retornados incorretos no resultado quando
RecognizeAsync()
atinge o tempo limite. - A dependência das bibliotecas do Media Foundation no Windows foi removida. O SDK agora usa as APIs Core Audio.
- Correção da documentação: uma página de regiões foi adicionada para descrever as regiões com suporte.
Problema conhecido
- O SDK de Fala para Android não relata os resultados da síntese de fala para tradução. Esse problema será corrigido na próxima versão.
SDK de Fala de IA do Azure 0.4.0: versão de junho de 2018
Alterações funcionais
AudioInputStream
Agora, um reconhecedor pode consumir um fluxo como a fonte de áudio. Para obter mais detalhes, confira o guia de instruções relacionado.
Formato de saída detalhado
Ao criar um
SpeechRecognizer
, você pode solicitar o formato de saídaDetailed
ouSimple
. ODetailedSpeechRecognitionResult
contém uma pontuação de confiança, texto reconhecido, forma léxica bruta, forma normalizada e forma normalizada com obscenidades mascaradas.
Alteração da falha
- Alterado para
SpeechRecognitionResult.Text
deSpeechRecognitionResult.RecognizedText
em C#.
Correções de bug
- Foi corrigido um possível problema de retorno de chamada na camada USP durante o desligamento.
- Se um reconhecedor consumir um arquivo de entrada de áudio, ele manteve o identificador de arquivo por mais tempo do que o necessário.
- Foram removidos vários deadlocks entre a bomba de mensagens e o reconhecedor.
- Dispare um resultado
NoMatch
quando o tempo de resposta do serviço esgotar. - As bibliotecas do Media Foundation no Windows são carregadas com atraso. Essa biblioteca é necessária apenas para entrada do microfone.
- A velocidade de carregamento de dados de áudio é limitada a duas vezes a velocidade do áudio original.
- No Windows, agora os assemblies .NET em C# têm nomes fortes.
- Correção de documentação:
Region
são as informações necessárias para criar um reconhecedor.
Mais exemplos foram adicionados e são atualizados constantemente. Para obter o último conjunto de exemplos, confira o Repositório GitHub de exemplos do SDK de Fala.
SDK de Fala de IA do Azure 0.2.12733: versão de maio de 2018
Esta é a primeira versão de visualização pública do SDK de Fala de IA do Azure.