Partilhar via


O que são vozes de alta definição? (Pré-visualização)

Nota

Esta funcionalidade está atualmente em pré-visualização pública. Essa visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

O Azure AI Speech continua a avançar no campo da tecnologia de texto para fala com a introdução de texto neural para vozes de alta definição (HD) de fala. As vozes HD podem compreender o conteúdo, detetar automaticamente emoções no texto de entrada e ajustar o tom de fala em tempo real para corresponder ao sentimento. As vozes HD mantêm uma persona de voz consistente das suas contrapartes neurais (e não HD) e oferecem ainda mais valor através de funcionalidades melhoradas.

Principais características do texto neural para voz voz HD

A seguir estão os principais recursos das vozes HD do Azure AI Speech:

Funcionalidades principais Description
Geração de fala semelhante à humana As vozes HD neurais de texto para fala podem gerar uma fala altamente natural e semelhante à humana. O modelo é treinado em milhões de horas de dados multilíngues, permitindo interpretar com precisão o texto de entrada e gerar fala com a emoção, o ritmo e o ritmo apropriados sem ajustes manuais.
Conversacional As vozes HD neurais de texto para fala podem replicar padrões naturais de fala, incluindo pausas espontâneas e ênfase. Quando recebe texto de conversação, o modelo pode reproduzir fonemas comuns, como pausas e palavras de preenchimento. A voz gerada soa como se alguém estivesse conversando diretamente com você.
Variações da prosódia Texto neural para voz vozes HD introduzem pequenas variações em cada saída para melhorar o realismo. Estas variações tornam o som da fala mais natural, uma vez que as vozes humanas exibem naturalmente variação.
Alta fidelidade O principal objetivo do texto neural para voz vozes HD é gerar áudio de alta fidelidade. A fala sintética produzida pelo nosso sistema pode imitar de perto a fala humana em qualidade e naturalidade.
Version control (Controlo de versões) Com vozes HD de texto neural para fala, lançamos diferentes versões da mesma voz, cada uma com um tamanho de modelo base e receita exclusivos. Isto oferece-lhe a oportunidade de experimentar novas variações de voz ou continuar a utilizar uma versão específica de uma voz.

Comparação de vozes do Azure AI Speech HD com outras vozes de texto para fala do Azure

Como as vozes do Azure AI Speech HD se comparam a outras vozes de texto para fala do Azure? Como diferem em termos de características e capacidades?

Aqui está uma comparação de recursos entre vozes do Azure AI Speech HD, vozes do Azure OpenAI HD e vozes do Azure AI Speech:

Caraterística Vozes HD do Azure AI Speech Vozes do Azure OpenAI HD Vozes de voz do Azure AI (não HD)
Região Leste dos EUA, Sudeste Asiático, Europa Ocidental E.U.A. Centro-Norte, Suécia Central Disponível em dezenas de regiões. Veja a lista de regiões.
Número de vozes 12 6 Mais de 500
Multilingue Não (executar apenas no idioma principal) Sim Sim (aplicável apenas a vozes multilingues)
Suporte SSML Suporte para um subconjunto de elementos SSML. Suporte para um subconjunto de elementos SSML. Suporte para o conjunto completo de SSML no Azure AI Speech.
Opções de desenvolvimento SDK de fala, CLI de fala, API REST SDK de fala, CLI de fala, API REST SDK de fala, CLI de fala, API REST
Opções de implementação Apenas na nuvem Apenas na nuvem Cloud, incorporado, híbrido e contêineres.
Síntese em tempo real ou em lote Apenas em tempo real Síntese em tempo real e em lote Síntese em tempo real e em lote
Latência Menos de 300 ms Maior que 500 ms Menos de 300 ms
Taxa de amostragem de áudio sintetizado 8, 16, 24 e 48 kHz 8, 16, 24 e 48 kHz 8, 16, 24 e 48 kHz
Formato de áudio de saída de voz Opus, MP3, PCM, Truesilk Opus, MP3, PCM, Truesilk Opus, MP3, PCM, Truesilk

Vozes HD do Azure AI Speech HD suportadas

Os valores de voz do Azure AI Speech HD estão no formato voicename:basemodel:version. O nome antes dos dois pontos, como en-US-Ava, é o nome da persona da voz e sua localidade original. O modelo base é rastreado por versões em atualizações subsequentes.

Atualmente, DragonHD é o único modelo base disponível para vozes HD do Azure AI Speech. Para garantir que você está usando a versão mais recente do modelo base que fornecemos sem ter que fazer uma alteração de código, use a LatestNeural versão.

Por exemplo, para a persona, você pode especificar os seguintes valores de en-US-Ava voz HD:

  • en-US-Ava:DragonHDLatestNeural: Utiliza sempre a versão mais recente do modelo base que fornecemos mais tarde.

A tabela a seguir lista as vozes HD do Azure AI Speech que estão disponíveis no momento.

Persona de voz neural Vozes HD
de-DE-Seraphina de-DE-Seraphina:DragonHDLatestNeural
pt-EUA-Andrew pt-EUA-Andrew:DragonHDLatestNeural
pt-EUA-Andrew2 pt-EUA-Andrew2:DragonHDLatestNeural
pt-EUA-Aria pt-EUA-Aria:DragonHDLatestNeural
pt-EUA-Ava pt-EUA-Ava:DragonHDLatestNeural
pt-EUA-Brian pt-EUA-Brian:DragonHDLatestNeural
pt-EUA-Davis pt-EUA-Davis:DragonHDLatestNeural
pt-EUA-Emma pt-EUA-Emma:DragonHDLatestNeural
pt-EUA-Emma2 pt-EUA-Emma2:DragonHDLatestNeural
pt-EUA-Jenny pt-EUA-Jenny:DragonHDLatestNeural
pt-EUA-Steffan pt-EUA-Steffan:DragonHDLatestNeural
ja-JP-Masaru ja-JP-Masaru:DragonHDLatestNeural
zh-CN-Xiaochen zh-CN-Xiaochen:DragonHDLatestNeural

Como usar vozes HD do Azure AI Speech

Você pode usar vozes HD com o mesmo SDK de fala e APIs REST que as vozes não HD.

Aqui estão alguns pontos-chave a serem considerados ao usar vozes HD do Azure AI Speech:

  • Localidade da voz: a localidade no nome da voz indica seu idioma e região originais.
  • Modelos de base:
    • As vozes HD vêm com um modelo base que compreende o texto de entrada e prevê o padrão de fala de acordo. Você pode especificar o modelo desejado (como DragonHDLatestNeural) de acordo com a disponibilidade de cada voz.
  • Uso do SSML: para fazer referência a uma voz no SSML, use o formato voicename:basemodel:version. O nome antes dos dois pontos, como de-DE-Seraphina, é o nome da persona da voz e sua localidade original. O modelo base é rastreado por versões em atualizações subsequentes.
  • Parâmetro de temperatura:
    • O valor da temperatura é um flutuador que varia de 0 a 1, influenciando a aleatoriedade da saída. Você também pode ajustar o parâmetro de temperatura para controlar a variação das saídas. Menos aleatoriedade produz resultados mais estáveis, enquanto mais aleatoriedade oferece variedade, mas menos consistência.
    • Temperaturas mais baixas resultam em menos aleatoriedade, levando a saídas mais previsíveis. Temperaturas mais altas aumentam a aleatoriedade, permitindo saídas mais diversificadas. A temperatura padrão é definida como 1,0.

Eis um exemplo de como utilizar as vozes HD do Azure AI Speech no SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Elementos SSML com e sem suporte para vozes HD do Azure AI Speech

A SSML (Speech Synthesis Markup Language) com texto de entrada determina a estrutura, o conteúdo e outras características da saída de texto para fala. Por exemplo, você pode usar SSML para definir um parágrafo, uma frase, uma pausa ou silêncio. Você pode quebrar o texto com tags de evento, como marcador ou viseme, que seu aplicativo processa posteriormente.

As vozes HD do Azure AI Speech não suportam todos os elementos ou eventos SSML suportados por outras vozes do Azure AI Speech. É importante notar que as vozes HD do Azure AI Speech não suportam eventos de limite de palavras.

Para obter informações detalhadas sobre os elementos SSML com e sem suporte para vozes HD do Azure AI Speech, consulte a tabela a seguir. Para obter instruções sobre como usar elementos SSML, consulte a documentação do SSML (Speech Synthesis Markup Language).

Elemento SSML Description Com suporte em vozes HD do Azure AI Speech
<voice> Especifica a voz e os efeitos opcionais (eq_car e eq_telecomhp8k). Sim
<mstts:express-as> Especifica estilos e funções de fala. Não
<mstts:ttsembedding> Especifica a speakerProfileId propriedade para uma voz pessoal. Não
<lang xml:lang> Especifica a língua falante. Sim
<prosody> Ajusta o tom, contorno, alcance, taxa e volume. Não
<emphasis> Adiciona ou remove a ênfase no nível da palavra para o texto. Não
<audio> Incorpora áudio pré-gravado em um documento SSML. Não
<mstts:audioduration> Especifica a duração do áudio de saída. Não
<mstts:backgroundaudio> Adiciona áudio de fundo aos seus documentos SSML ou mistura um ficheiro de áudio com texto para voz. Não
<phoneme> Especifica a pronúncia fonética em documentos SSML. Não
<lexicon> Define como várias entidades são lidas no SSML. Sim (suporta apenas alias)
<say-as> Indica o tipo de conteúdo, como número ou data, do texto do elemento. Sim
<sub> Indica que o valor de texto do atributo alias deve ser pronunciado em vez do texto incluído do elemento. Sim
<math> Usa o MathML como texto de entrada para pronunciar corretamente notações matemáticas no áudio de saída. Não
<bookmark> Obtém o deslocamento de cada marcador no fluxo de áudio. Não
<break> Substitui o comportamento padrão de quebras ou pausas entre palavras. Não
<mstts:silence> Insere pausa antes ou depois do texto, ou entre duas frases adjacentes. Não
<mstts:viseme> Define a posição do rosto e da boca enquanto uma pessoa está falando. Não
<p> Indica parágrafos em documentos SSML. Sim
<s> Indica frases em documentos SSML. Sim

Nota

Embora uma seção anterior neste guia também tenha comparado as vozes do Azure AI Speech HD com as vozes do Azure OpenAI HD, os elementos SSML suportados pelo Azure AI Speech não são aplicáveis às vozes do Azure OpenAI.