Utiliser la voix personnelle dans votre application

Article
09/26/2024

Vous pouvez utiliser l’ID de profil d’orateur pour votre voix personnelle afin de synthétiser un message dans l’une des 91 langues prises en charge dans plus de 100 paramètres régionaux. Une balise de paramètres régionaux n’est pas obligatoire. La voix personnelle utilise la détection automatique de la langue au niveau de la phrase.

Intégrer la voix personnelle dans votre application

Vous devez utiliser le langage SSML (Speech Synthesis Markup Language) pour utiliser la voix personnelle dans votre application. SSML est un langage de balisage basé sur XML qui fournit un moyen standard de baliser le texte pour générer un message synthétique. Les balises SSML permettent de contrôler la prononciation, le volume, la hauteur, le débit et d’autres attributs de la sortie de synthèse vocale.

La propriété speakerProfileId dans SSML permet de spécifier l’ID de profil d’orateur pour la voix personnelle.
Vous spécifiez le nom de la voix dans la propriété name dans SSML. Pour la voix personnelle, le nom de la voix doit être l’un des noms de voix de modèle de base pris en charge. Pour obtenir la liste des noms de voix de modèle de base pris en charge, utilisez l’opération BaseModels_List de l’API de voix personnalisée.

Remarque

Les noms de voix étiquetés avec le Latest, tels que DragonLatestNeural ou PhoenixLatestNeural, seront mis à jour de temps à autre ; leur performance peut varier en fonction des mises à jour pour les améliorations en cours. Si vous souhaitez utiliser une version corrigée, sélectionnez-en une étiquetée avec un numéro de version, comme PhoenixV2Neural.
DragonLatestNeural est un modèle de base avec une similarité de clonage de voix supérieure par rapport à PhoenixLatestNeural. PhoenixLatestNeural est un modèle de base avec une prononciation plus précise et une latence inférieure à DragonLatestNeural.
Pour la voix personnelle, vous pouvez utiliser l’élément <lang xml:lang> pour ajuster la langue parlée. Il en va de même pour les voix multilingues. Consultez comment utiliser l’élément lang pour parler différentes langues.

Voici un exemple SSML dans une demande de synthèse vocale avec le nom vocal et l’ID de profil de l’orateur. L’exemple montre également comment passer de la langue en-US à la langue zh-HK à l’aide de l’élément <lang xml:lang>.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='DragonLatestNeural'> 
        <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
            I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 
            <lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起，我讓你的旅行計劃更輕鬆、更有趣。</lang>
        </mstts:ttsembedding> 
    </voice> 
</speak>

Vous pouvez utiliser SSML via le SDK Speech ou l’API REST.

Synthèse vocale en temps réel : utilisez le SDK Speech ou l’API REST pour la conversion de texte par synthèse vocale.
- Quand vous utilisez le Kit de développement logiciel (SDK) Speech, ne définissez pas l’ID de point de terminaison, tout comme pour la voix prédéfinie.
- Lorsque vous utilisez l’API REST, utilisez le point de terminaison des voix neuronales prédéfinies.

Éléments SSML pris en charge et non pris en charge pour une voix personnelle

Pour plus d’informations sur les éléments SSML pris en charge et non pris en charge pour les modèles Phoenix et Dragon, reportez-vous au tableau suivant. Pour obtenir des instructions sur l’utilisation d’éléments SSML, reportez-vous à la structure et aux événements des documents SSML.

Element	Description	Pris en charge dans Phoenix	Pris en charge dans Dragon
`<voice>`	Spécifie les effets vocaux et facultatifs (`eq_car` et `eq_telecomhp8k`).	Oui	Oui
`<mstts:express-as>`	Spécifie des styles d’élocution et des rôles.	Non	Non
`<mstts:ttsembedding>`	Spécifie la propriété `speakerProfileId` pour une voix personnelle.	Oui	Oui
`<lang xml:lang>`	Spécifie la langue parlée.	Oui	Oui
`<prosody>`	Ajuste la tonalité, le contour, la plage, la vitesse et le volume.
`pitch`	Indique la tonalité de base pour le texte.	Non	Non
`contour`	Représente les changements dans la tonalité.	Non	Non
`range`	Représente la plage de tonalités pour le texte.	Non	Non
`rate`	Indique la cadence d’énonciation du texte.	Oui	Oui
`volume`	Indique le niveau de volume de la voix.	Non	Non
`<emphasis>`	Ajoute ou supprime l’accent tonique au niveau du mot pour le texte.	Non	Non
`<audio>`	Incorpore du contenu audio préenregistré dans un document SSML.	Oui	Non
`<mstts:audioduration>`	Spécifie la durée de l’audio de sortie.	Non	Non
`<mstts:backgroundaudio>`	Ajoute de l’audio en arrière-plan à vos documents SSML ou combine un fichier audio avec la synthèse vocale.	Oui	Non
`<phoneme>`	Spécifie la prononciation phonétique dans des documents SSML.
`ipa`	Un des alphabets phonétiques.	Oui	Non
`sapi`	Un des alphabets phonétiques.	Non	Non
`ups`	Un des alphabets phonétiques.	Oui	Non
`x-sampa`	Un des alphabets phonétiques.	Oui	Non
`<lexicon>`	Définit comment plusieurs entités sont lues dans SSML.	Oui	Oui (uniquement l’alias de prise en charge)
`<say-as>`	Indique le type de contenu, par exemple un nombre ou une date, du texte de l’élément.	Oui	Oui
`<sub>`	Indique que la valeur de texte de l’attribut alias doit être prononcée au lieu du texte joint de l’élément.	Oui	Oui
`<math>`	Utilise MathML en texte d’entrée pour prononcer correctement les notations mathématiques dans l’audio de sortie.	Oui	Non
`<bookmark>`	Obtient le décalage de chaque marqueur dans le flux audio.	Oui	Non
`<break>`	Remplace le comportement par défaut des interruptions ou pauses entre les mots.	Oui	Oui
`<mstts:silence>`	Insère des pauses avant ou après le texte, ou entre deux phrases adjacentes.	Oui	Non
`<mstts:viseme>`	Définit la position du visage et de la bouche pendant qu’une personne parle.	Oui	Non
`<p>`	Désigne les paragraphes dans des documents SSML.	Oui	Oui
`<s>`	Désigne les phrases dans des documents SSML.	Oui	Oui

Fonctionnalités du Kit de développement logiciel (SDK) prises en charge et non prises en charge pour une voix personnelle

Le tableau suivant décrit les fonctionnalités du Kit de développement logiciel (SDK) prises en charge pour les modèles Phoenix et Dragon. Pour plus d’informations sur l’utilisation de ces fonctionnalités du Kit de développement logiciel (SDK) dans vos applications, consultez S’abonner aux événements de synthèse.

Fonctionnalités du Kit de développement logiciel (SDK)	Description	Pris en charge dans Phoenix	Pris en charge dans Dragon
Limite de mot	Signale qu’une limite de mot a été reçue pendant la synthèse, fournissant un minutage précis des mots pendant le processus de synthèse vocale.	Oui	Non
Événements de visème	Fournit des informations de visème (lèvres, mâchoires et mouvements de langue) pendant la synthèse, ce qui permet la synchronisation visuelle.	Oui	Non

Documentation de référence

Documentation de référence sur l’API REST de voix personnalisée

Étapes suivantes

Découvrez-en plus sur la voix neuronale personnalisée dans la vue d’ensemble.
En savoir plus sur Speech Studio dans la vue d’ensemble.

Partager via