Migrar código da API de áudio longo para a API de síntese em lote
A API de síntese em lote fornece síntese assíncrona de texto de forma longa para fala. Este artigo descreve os benefícios da atualização da API de áudio longo para a API de síntese em lote e detalhes sobre como fazer isso.
Importante
A API de síntese em lote está geralmente disponível. a API Long Audio será aposentada em 1º de abril de 2027.
Caminho e versão base
Atualize o ponto de extremidade de https://YourSpeechRegion.customvoice.api.speech.microsoft.com
para https://YourSpeechRegion.api.cognitive.microsoft.com
ou você pode usar o domínio personalizado em vez disso: https://{customDomainName}.cognitiveservices.azure.com/
.
Atualize o caminho base em seu código de /texttospeech/v3.0/longaudiosynthesis
para /texttospeech/batchsyntheses
.
Atualize a versão do caminho base para a cadeia de caracteres de consulta /texttospeech/v3.0/longaudiosynthesis
para ?api-version=2024-04-01
.
Por exemplo, para listar trabalhos de síntese para seu recurso de fala na eastus
região, use https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01
em vez de https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis
.
Regiões e parâmetros de avaliação
A API de síntese em lote está disponível em mais regiões de fala.
A API de áudio longo está limitada às seguintes regiões:
País/Região | Ponto final |
---|---|
Leste da Austrália | https://australiaeast.customvoice.api.speech.microsoft.com |
E.U.A. Leste | https://eastus.customvoice.api.speech.microsoft.com |
Índia Central | https://centralindia.customvoice.api.speech.microsoft.com |
E.U.A. Centro-Sul | https://southcentralus.customvoice.api.speech.microsoft.com |
Sudeste Asiático | https://southeastasia.customvoice.api.speech.microsoft.com |
Sul do Reino Unido | https://uksouth.customvoice.api.speech.microsoft.com |
Europa Ocidental | https://westeurope.customvoice.api.speech.microsoft.com |
Lista de vozes
A API de síntese em lote suporta todas as vozes e estilos de texto para fala.
A API Long Audio é limitada ao conjunto de vozes retornadas por uma solicitação GET para https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices
.
Entradas de texto
As entradas de texto de síntese em lote são enviadas em uma carga JSON de até 2 megabytes.
As entradas de texto longas da API de áudio são carregadas de um arquivo que atende aos seguintes requisitos:
- Um ficheiro de texto simples (.txt) ou texto SSML (.txt) codificado como UTF-8 com marca de ordem de bytes (BOM). Não use arquivos compactados, como ZIP. Se você tiver mais de um arquivo de entrada, deverá enviar várias solicitações.
- Contém mais de 400 caracteres para texto sem formatação ou 400 caracteres faturáveis para texto SSML e menos de 10.000 parágrafos. Para texto sem formatação, cada parágrafo é separado por uma nova linha. Para texto SSML, cada peça SSML é considerada um parágrafo. Separe as partes do SSML por parágrafos diferentes.
Com a API de síntese em lote, você pode usar qualquer um dos elementos SSML suportados, incluindo os audio
elementos , mstts:backgroundaudio
e .lexicon
A API de áudio longo não suporta os audio
elementos , mstts:backgroundaudio
e lexicon
.
Formatos de saída de áudio
A API de síntese em lote suporta todos os formatos de saída de áudio de texto para fala.
A API Long Audio está limitada ao seguinte conjunto de formatos de saída de áudio. A taxa de amostragem para vozes de áudio longas é de 24kHz, não de 48kHz. Outras taxas de amostragem podem ser obtidas através de amostragem ascendente ou descendente durante a síntese.
- riff-8khz-16bit-mono-pcm
- riff-16khz-16bit-mono-pcm
- riff-24khz-16bit-mono-pcm
- riff-48khz-16bit-mono-pcm
- áudio-16kHz-32Kbitrate-mono-mp3
- áudio-16khz-64kbitrate-mono-mp3
- áudio-16khz-128kbitrate-mono-mp3
- áudio-24khz-48kbitrate-mono-mp3
- áudio-24khz-96kbitrate-mono-mp3
- áudio-24khz-160kbitrate-mono-mp3
Obter resultados
Com a API de síntese em lote, use a URL da outputs.result
propriedade da resposta de síntese em lote HTTP GET. Os resultados estão em um arquivo ZIP que contém o áudio (como 0001.wav
), resumo e detalhes de depuração.
As entradas de texto e os resultados da API de áudio longa são retornados por meio de duas URLs de conteúdo separadas, conforme mostrado no exemplo a seguir. O único com "kind": "LongAudioSynthesisScript"
é o script de entrada enviado. O outro com "kind": "LongAudioSynthesisResult"
é o resultado deste pedido. Ambos os arquivos ZIP podem ser baixados do URL em sua links.contentUrl
propriedade.
Limpar os recursos
A API de síntese em lote suporta até 300 trabalhos de síntese em lote que não têm o status "Aprovado" ou "Falhado". O serviço de Fala mantém cada histórico de síntese por até 31 dias, ou a duração da propriedade de solicitação timeToLiveInHours
, o que ocorrer primeiro. A data e a hora da exclusão automática (para trabalhos de síntese com um status de "Aprovado" ou "Reprovado") são iguais às lastActionDateTime
+ timeToLiveInHours
propriedades.
A API de Áudio Longo está limitada a 20.000 solicitações para cada conta de assinatura do Azure. O serviço de Fala não remove o histórico de trabalhos automaticamente. Você deve remover o histórico de execução de trabalho anterior antes de fazer novas solicitações que, de outra forma, excederiam o limite.