Configurer le format audio et les voix

Effectué

Lors de la synthèse vocale, vous pouvez utiliser un objet SpeechConfig pour personnaliser l’audio qui est retourné par le service Azure AI Speech.

Format audio

Le service Azure AI Speech prend en charge plusieurs formats de sortie pour le flux audio généré par la synthèse vocale. Selon vos besoins spécifiques, vous pouvez choisir un format basé sur les éléments requis :

  • Le type de fichier audio
  • Le taux d’échantillonnage
  • La profondeur de bits

Les formats pris en charge sont indiqués dans le Kit de développement logiciel (SDK) à l’aide de l’énumération SpeechSynthesisOutputFormat. Par exemple : SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm.

Pour spécifier le format de sortie requis, utilisez la méthode SetSpeechSynthesisOutputFormat de l’objet SpeechConfig :

speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Pour obtenir la liste complète des formats pris en charge et leurs valeurs d’énumération, consultez la documentation du Kit de développement logiciel (SDK) Azure AI Speech.

Voix

Le service Azure AI Speech fournit plusieurs voix que vous pouvez utiliser pour personnaliser vos applications avec reconnaissance vocale. Vous pouvez utiliser deux types de voix :

  • Voix standard : voix synthétiques créées à partir d’exemples audio.
  • Voix neuronales : voix plus naturelles créées à l’aide de réseaux neuronaux profonds.

Les voix sont identifiées par des noms qui indiquent des paramètres régionaux et le nom d’une personne, par exemple en-GB-George.

Pour spécifier une voix pour la synthèse vocale dans SpeechConfig, définissez sa propriété SpeechSynthesisVoiceName sur la voix que vous souhaitez utiliser :

speechConfig.SpeechSynthesisVoiceName = "en-GB-George";

Pour plus d’informations sur la synthèse vocale, consultez la documentation SDK Azure AI Speech.