Évaluation de la prononciation dans le portail Azure AI Foundry

Article
12/26/2024

Important

Les éléments marqués (préversion) dans cet article sont actuellement en préversion publique. Cette préversion est fournie sans contrat de niveau de service, nous la déconseillons dans des charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

L’évaluation de la prononciation utilise la fonctionnalité de reconnaissance vocale pour fournir des commentaires subjectifs et objectifs aux apprenants en langues. Il est essentiel de pratiquer la prononciation et d’obtenir des commentaires opportuns pour améliorer les compétences linguistiques. Les évaluations menées par des enseignants expérimentés peuvent prendre beaucoup de temps et demander beaucoup d’énergie. Une évaluation de haute qualité est donc coûteuse pour les apprenants. L’évaluation de la prononciation peut aider à rendre l’évaluation linguistique plus attrayante et accessible aux apprenants de tous les milieux.

Remarque

Pour plus d’informations sur la disponibilité de l’évaluation de la prononciation, consultez les langues prises en charge et les régions disponibles.

Cet article décrit comment utiliser l’outil d’évaluation de la prononciation sans écrire de code via le portail Azure AI Foundry. Pour plus d’informations sur l’intégration de l’évaluation de la prononciation dans vos applications vocales, consultez Comment utiliser l’évaluation de la prononciation.

Scénarios « lecture » et « parler »

Pour l’évaluation de la prononciation, il existe deux scénarios : lecture et parler.

Lecture : ce scénario est conçu pour l’évaluation par script. L’individu doit lire un texte donné. Le texte de référence est fourni à l’avance.
Parler : ce scénario est conçu pour une évaluation nonscriptée. Il exige que l’individu parle sur un sujet donné. Le texte de référence n’est pas fourni à l’avance.

Effectuer une évaluation par script

Procédez comme suit pour évaluer votre prononciation du texte de référence :

Accédez à Évaluation de la prononciation dans le portail Azure AI Foundry.
Sous l’onglet Lecture, choisissez une langue prise en charge que vous souhaitez évaluer la prononciation.
Vous pouvez utiliser des exemples de texte provisionnés ou entrer votre propre script.

Lorsque vous lisez le texte, vous devez être proche du microphone pour vous assurer que la voix enregistrée n’est pas trop basse.

Sinon, vous pouvez charger l’audio enregistré pour l’évaluation de la prononciation. Une fois le chargement réussi, l’audio est automatiquement évalué par le système, comme illustré dans la capture d’écran suivante.

Effectuer une évaluation nonscriptée

Si vous souhaitez effectuer une évaluation nonscriptée, sélectionnez l’onglet Parler. La fonctionnalité vous permet d’effectuer une évaluation non scriptée sans fournir de texte de référence à l’avance. Voici comment procéder :

Accédez à Évaluation de la prononciation dans le portail Azure AI Foundry.
Sous l’onglet Parler, choisissez une langue prise en charge que vous souhaitez évaluer la prononciation.
Ensuite, vous pouvez sélectionner parmi les exemples de sujets fournis ou entrer votre propre sujet. Ce choix vous permet d’évaluer votre capacité à parler sur un sujet donné sans script prédéfini.

Lors de l’enregistrement de votre voix pour l’évaluation de la prononciation, il est important de s’assurer que votre temps d’enregistrement se situe dans la plage recommandée de 15 secondes (équivalent à plus de 50 mots) à 10 minutes. Cet intervalle de temps est optimal pour évaluer avec précision le contenu de votre discours. Pour recevoir un score de sujet, votre audio doit contenir au moins trois phrases.

Vous pouvez également charger l’audio enregistré pour l’évaluation de la prononciation. Une fois le chargement réussi, l’audio est automatiquement évalué par le système.

Résultats de l’évaluation de la prononciation

Une fois que vous avez enregistré le texte de référence ou chargé l’audio enregistré, le résultat de l’évaluation est généré. Le résultat inclut votre audio parlé et les commentaires sur votre évaluation vocale. Vous pouvez écouter votre audio parlé et le télécharger si nécessaire.

Vous pouvez également vérifier le résultat de l’évaluation de la prononciation au format JSON. Les scores de précision au niveau du mot, de la syllabe et du phonème sont inclus dans le fichier JSON.

Affichage
JSON

Capture d’écran montrant le résultat de l’évaluation dans la fenêtre d’affichage, qui inclut la transcription et les commentaires sur votre discours.

Le mot est mis en surbrillance en fonction du type d’erreur. Les types d’erreurs dans l’évaluation de la prononciation ont des codes de couleur différents. Cette identification visuelle facilite l’identification et l’analyse d’erreurs spécifiques. Il fournit une vue d’ensemble claire des types et fréquences de l’erreur dans l’audio parlé, ce qui vous permet de vous focaliser sur les domaines qui doivent être améliorés. Vous pouvez activer/désactiver chaque type d’erreur pour vous concentrer sur des types d’erreurs spécifiques ou exclure certains types de l’affichage. Cette fonctionnalité offre une flexibilité dans la façon dont vous passez en revue et analysez les erreurs dans votre audio parlé. Lorsque vous pointez sur chaque mot, vous pouvez voir des scores de précision pour l’ensemble du mot ou des phonèmes spécifiques.

En bas du résultat de l’évaluation, les résultats de scoring sont affichés. Pour l’évaluation de prononciation scriptée, seul le score de prononciation (y compris le score de précision, le score de fluidité, le score d’exhaustivité et le score de prosodie) sont fournis. Pour l’évaluation de prononciation non scriptée, le score de prononciation (y compris le score de précision, le score de fluidité et le score de prosodie) et le score de contenu (y compris le score de vocabulaire, le score de grammaire et le score de sujet) sont affichés.

La transcription complète s’affiche dans l’attribut text. Vous pouvez voir des scores de précision pour le mot entier, les syllabes et les phonèmes spécifiques. Vous pouvez obtenir les mêmes résultats à l’aide du kit de développement logiciel (SDK) Speech. Pour plus d’informations, consultez Comment utiliser l’évaluation de la prononciation.

{
    "text": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
    "duration": 156100000,
    "offset": 800000,
    "json": {
        "Id": "f583d7588c89425d8fce76686c11ed12",
        "RecognitionStatus": 0,
        "Offset": 800000,
        "Duration": 156100000,
        "DisplayText": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
        "SNR": 40.47014,
        "NBest": [
            {
                "Confidence": 0.97532314,
                "Lexical": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "ITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "MaskedITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "Display": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
                "PronunciationAssessment": {
                    "AccuracyScore": 92,
                    "FluencyScore": 81,
                    "CompletenessScore": 93,
                    "PronScore": 85.6
                },
                "Words": [
                    // Words preceding "countryside" are omitted for brevity...
                    {
                        "Word": "countryside",
                        "Offset": 66200000,
                        "Duration": 7900000,
                        "PronunciationAssessment": {
                            "AccuracyScore": 30,
                            "ErrorType": "Mispronunciation"
                        },
                        "Syllables": [
                            {
                                "Syllable": "kahn",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 3
                                },
                                "Offset": 66200000,
                                "Duration": 2700000
                            },
                            {
                                "Syllable": "triy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 19
                                },
                                "Offset": 69000000,
                                "Duration": 1100000
                            },
                            {
                                "Syllable": "sayd",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 51
                                },
                                "Offset": 70200000,
                                "Duration": 3900000
                            }
                        ],
                        "Phonemes": [
                            {
                                "Phoneme": "k",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 66200000,
                                "Duration": 900000
                            },
                            {
                                "Phoneme": "ah",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 67200000,
                                "Duration": 1000000
                            },
                            {
                                "Phoneme": "n",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 11
                                },
                                "Offset": 68300000,
                                "Duration": 600000
                            },
                            {
                                "Phoneme": "t",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 16
                                },
                                "Offset": 69000000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "r",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 27
                                },
                                "Offset": 69400000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "iy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 15
                                },
                                "Offset": 69800000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "s",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 26
                                },
                                "Offset": 70200000,
                                "Duration": 1700000
                            },
                            {
                                "Phoneme": "ay",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 56
                                },
                                "Offset": 72000000,
                                "Duration": 1300000
                            },
                            {
                                "Phoneme": "d",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 100
                                },
                                "Offset": 73400000,
                                "Duration": 700000
                            }
                        ]
                    },
                    // Words following "countryside" are omitted for brevity...
                ]
            }
        ]
    }
}

Granularité de l’évaluation de la prononciation

L’évaluation de la prononciation fournit différents résultats d’évaluation dans différentes granularités, des phonèmes individuels à l’entrée de texte entière.

Au niveau du texte intégral, l’évaluation de la prononciation offre des scores supplémentaires de fluidité, d’exhaustivité supplémentaires et de prosodie: La fluidité indique comment la voix correspond à l’utilisation de sauts silencieux entre les mots d’un orateur natif ; l’exhaustivité indique le nombre de mots prononcés dans la parole à l’entrée de texte de référence ; La prosodie indique comment un orateur transmet des éléments de la nature, de l’expressivité et de la prosodie globale dans leur discours. Un score global agrégé à partir de la précision, de la fluidité, de l’exhaustivité et de la prosodie est ensuite donné pour indiquer la qualité de prononciation globale de la parole donnée. L’évaluation de la prononciation offre également un score de contenu (vocabulaire, grammaire et rubrique) au niveau du texte intégral.
Au niveau du mot, l’évaluation de la prononciation peut détecter automatiquement des erreurs et fournir un score de précision simultanément, qui fournit des informations plus détaillées sur l’omission, la répétition, les insertions et la mauvaise prononciation dans le discours.
Les scores d’exactitude au niveau de la syllabe sont actuellement disponibles au travers du fichier JSON ou le SDK Speech.
Au niveau phonème, l’évaluation de la prononciation fournit des scores de précision de chaque phonème, ce qui permet aux apprenants de mieux comprendre les détails de la prononciation de leur discours.

En plus des scores de base de précision, de fluidité et d’exhaustivité, la fonction d’évaluation de la prononciation dans Azure AI Foundry inclut des scores plus complets pour fournir des commentaires détaillés sur divers aspects de la performance et de la compréhension de la parole. Les scores améliorés sont les suivants : score prosodie, score de vocabulaire, score de grammaire et score de rubrique. Ces scores offrent des insights précieux sur la prosodie vocale, l’utilisation du vocabulaire, la correction grammaticale et la compréhension des rubriques.

Capture d’écran du score global de prononciation et du score global de contenu dans Azure AI Foundry.

En bas du résultat de l’évaluation, deux scores globaux sont affichés : score de prononciation et score de contenu. Dans l’onglet Lecture, vous trouvez le score de prononciation affiché. Dans l’onglet Parler, le score de prononciation et le score de contenu sont affichés.

Score de prononciation : Ce score représente une évaluation agrégée de la qualité de prononciation et comprend quatre sous-aspects. Ces scores sont disponibles dans les onglets « lecture » et « parler » pour les évaluations scriptées et nonscriptées.

Score de précision : évalue la précision de la prononciation.
Score de fluidité : mesure le niveau de lissage et la nature dans la parole.
Score d’exhaustivité : reflète le nombre de mots prononcés correctement.
Score de prosodie: évalue l’utilisation d’une intonation, d’un rythme et d’un stress appropriés. Plusieurs autres types d’erreurs liés à l’évaluation de la prosodie sont introduits, tels que Saut inattendu, Saut manquant et Monotone. Ces types d’erreurs fournissent des informations plus détaillées sur les erreurs de prononciation par rapport au moteur précédent.

Score de contenu : Ce score fournit une évaluation agrégée du contenu de la parole et comprend trois sous-aspects. Ce score n'est disponible que dans l'onglet « parler » pour une évaluation non scénarisée.

Score de vocabulaire : évalue l’utilisation efficace des mots par l’orateur et leur pertinence dans le contexte donné pour exprimer des idées avec précision, ainsi que le niveau de complexité lexicale.
Score de grammaire : évalue la justesse de l’utilisation de la grammaire et la variété des modèles de phrases. Il considère l’exactitude lexicale, la précision grammaticale et la diversité des structures de phrases, fournissant une évaluation plus complète de la compétence linguistique.
Score de rubrique : évalue le niveau de compréhension et d’engagement avec la rubrique abordée dans le discours. Il évalue la capacité de l’orateur à exprimer efficacement des pensées et des idées liées au sujet donné.

Ces scores globaux offrent une évaluation complète de la prononciation et du contenu, fournissant aux apprenants des commentaires précieux sur différents aspects de leurs performances vocales et leur compréhension. Avec ces fonctionnalités améliorées, les apprenants de langue peuvent obtenir des insights plus approfondis sur leurs acquis et leurs compétences à améliorer dans les domaines de la prononciation et de l’expression de contenu.

Remarque

Les évaluations de contenu et de prosodie ne sont disponibles que dans les paramètres régionaux en-US.

Scores d’évaluation en mode transmission

L’évaluation de la prononciation prend en charge le mode de diffusion en continu ininterrompu. La démo Azure AI Foundry permet jusqu’à 60 minutes d’enregistrement en mode streaming pour évaluation. Tant que vous n’appuyez pas sur le bouton Arrêter l’enregistrement, le processus d’évaluation ne se termine pas ; vous pouvez suspendre et reprendre l’évaluation aisément.

L’évaluation de la prononciation évalue plusieurs aspects de la prononciation. En bas du résultat d’évaluation, vous pouvez voir le score de prononciation comme score global agrégé comprenant 4 sous-aspects : score de précision, score de fluidité, score d’exhaustivité, et score de prosodie. En mode streaming, étant donné que le score de précision, le score de fluidité et le score de prosodie varient au fil du temps tout au long du processus d’enregistrement, nous démontrons une approche dans Azure AI Foundry pour afficher le score global approximatif de manière incrémentielle avant la fin de l’évaluation, qui est pondérée uniquement par le score de précision, le score de fluidité et le score de prosodie. Le score d’exhaustivité n’est calculé qu’à la fin de l’évaluation après avoir appuyé sur le bouton d’arrêt, de sorte que le score global de prononciation finale est agrégé à partir de score de précision, score de fluidité, score d’exhaustivité, et score prosodie avec du poids.

Reportez-vous aux exemples de démonstration ci-dessous pour l’ensemble du processus d’évaluation de la prononciation en mode diffusion.

Démarrer l’enregistrement

Lorsque vous commencez l'enregistrement, les scores en bas de page commencent à varier à partir de 0.

Durant l’enregistrement

Pendant l’enregistrement d’un long paragraphe, vous pouvez le suspendre à tout moment. Vous pouvez continuer l'évaluation de votre enregistrement jusqu'à ce que vous ayez appuyé sur le bouton Arrêter.

Terminer l’enregistrement

Après avoir appuyé sur le bouton d’arrêt, vous pouvez voir score de prononciation, score de précision, score de fluidité, score d’exhaustivitéet score de prosodie en bas.

Tarification

En tant que base de référence, l’utilisation de l’évaluation de la prononciation coûte le même que la reconnaissance vocale pour le niveau de paiement à l’utilisation ou le niveau d’engagement tarification. Si vous acheter un niveau d’engagement pour la reconnaissance vocale, la dépense pour l’évaluation de la prononciation va pour répondre à l’engagement.

La fonctionnalité d’évaluation de la prononciation offre également d’autres scores qui ne sont pas inclus dans le prix de la reconnaissance vocale de référence : prosodie, grammaire, sujet et vocabulaire. Ces scores sont disponibles en tant que frais complémentaires au-dessus du prix de la reconnaissance vocale de référence vers le texte. Pour plus d’informations sur la tarification, consultez tarification de reconnaissance vocale.

Voici un tableau des scores d’évaluation de prononciation disponibles, qu’il soit disponible dans le scripté ou évaluations nonscriptées, et qu’il soit inclus dans la reconnaissance vocale de référence vers le prix du texte ou le prix du module complémentaire.

Score	Script ou nonscripté	Inclus dans la reconnaissance vocale de référence au prix du texte ?
Précision	Scripté et nonscripté	Oui
Maîtrise	Scripté et nonscripté	Oui
Exhaustivité	Avec script	Oui
Erreur	Scripté et nonscripté	Oui
Prosodie	Scripté et nonscripté	Non
Grammaire	Nonscripté uniquement	Non
Rubrique	Nonscripté uniquement	Non
Vocabulaire	Nonscripté uniquement	Non

Intelligence artificielle responsable

Un système d’IA englobe non seulement la technologie, mais aussi ses utilisateurs, les personnes concernées et l’environnement dans lequel il est déployé. Lisez les notes de transparence pour en savoir plus sur l’utilisation et le déploiement d’une IA responsable dans vos systèmes.

Étapes suivantes

Utiliser l’Évaluation de la prononciation avec le SDK Speech
Lire le blog sur les cas d’usage

Partager via