Azure AI Foundry 入口網站中的發音評量

發行項
11/23/2024

重要

本文中標示為 (預覽) 的項目目前處於公開預覽狀態。此預覽版本沒有服務等級協定，不建議將其用於生產工作負載。可能不支援特定功能，或可能已經限制功能。如需詳細資訊，請參閱 Microsoft Azure 預覽版增補使用條款。

發音評定會使用語音轉換文字功能，為語言學習者提供主觀和客觀意見反應。為了提升語言技能，練習發音和取得及時反饋是不可或缺的。由有經驗的教師進行評定可能須耗費大量時間和人力，對學習者而言，高品質的評定成本很高。而在發音評定的輔助下，語言評定對於各種背景的學習者都將更具吸引力，且更容易使用。

注意

如需發音評定可用性的相關資訊，請參閱支援的語言和可用區域。

本文說明如何使用發音評估工具，而不需透過 Azure AI Foundry 入口網站撰寫任何程式代碼。如需如何在語音應用程式中整合發音評定的相關資訊，請參閱如何使用發音評定。

朗讀和演講案例

對於發音評定，有兩種案例：朗讀和演講。

朗讀：此案例是為具講稿的評定而設計，需要學習者朗讀指定文字，且會事先提供參考文字。
演講：此案例是為無講稿的評定而設計，需要學習者就指定主題進行演講，不會事先提供參考文字。

執行具講稿的評定

請依照下列步驟評估參考文字的發音：

移至 Azure AI Foundry 入口網站中的發音評定。
在 [朗讀] 索引標籤上，選擇您要評估發音的支援語言。
您可以使用佈建的文字範例，或輸入自己的講稿。

讀出文字時，您應靠近麥克風，以確保錄製的聲音不會太低。

否則，您可以上傳已錄製的音訊來進行發音評定。成功上傳後，系統就會自動評估音訊，如下列螢幕擷取畫面所示。

執行無講稿的評定

如果您要執行無講稿的評定，請選取 [演講] 索引標籤。這項功能可讓您執行無講稿的評定，無須事先提供參考文字。以下說明如何繼續：

移至 Azure AI Foundry 入口網站中的發音評定。
在 [演講] 索引標籤上，選擇您要評估發音的支援語言。
接下來，您可以從提供的範例主題中選取，或輸入自己的主題。此選項可評估您在沒有預先指定講稿的情況下，就指定主題演講的能力。

在錄製語音進行發音評定時，請務必確保錄製時間落在 15 秒 (相當於 50 個字以上) 到 10 分鐘的建議範圍內。此為精準評估演講內容的最佳時間範圍。若要獲得主題分數，您的語音音訊應至少包含三個句子。

您也可以上傳已錄製的音訊來進行發音評定。成功上傳後，系統就會自動評估音訊。

發音評定結果

錄製您的語音或上傳錄製的音訊後，就會輸出評定結果。結果包含您的語音音訊，以及語音評定的意見反應。您可以聆聽您的語音音訊，並視需要加以下載。

您也可以在 JSON 中查看發音評定結果。 JSON 檔案中包含文字層級、音節層級和音素層級的正確性分數。

顯示器
JSON

在顯示視窗上顯示評定結果的螢幕擷取畫面，其中包含語音的文字記錄和意見反應。

單字會根據錯誤類型顯目提示。發音評定中的錯誤類型會使用不同的色彩來表示。此視覺區別可讓您更輕鬆地識別和分析特定錯誤。這提供語音音訊中錯誤類型和頻率的清楚概觀，協助您專注於需要改善的區域。您可以將各種錯誤類型切換為開啟或關閉，以專注於特定類型的錯誤，或從顯示中排除特定類型。此功能可讓您靈活地檢查和分析語音音訊中的錯誤。將滑鼠停留在個別單字上方時，您可以看到整個單字或特定音素的正確性分數。

在評定結果底部會顯示評分結果。針對具講稿的發音評定，僅提供發音分數 (包括正確性分數、流暢性分數、完整性分數和韻律分數)。針對無講稿的發音評定，則會顯示發音分數 (包括正確性分數、流暢性分數和韻律分數) 及內容分數 (包括詞彙分數、文法分數和主題分數)。

完整的謄寫會顯示在 text 屬性中。您可以看到整個單字、音節和特定音素的正確性分數。您可以使用語音 SDK 取得相同的結果。如需詳細資訊，請參閱如何使用發音評定 (機器翻譯)。

{
    "text": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
    "duration": 156100000,
    "offset": 800000,
    "json": {
        "Id": "f583d7588c89425d8fce76686c11ed12",
        "RecognitionStatus": 0,
        "Offset": 800000,
        "Duration": 156100000,
        "DisplayText": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
        "SNR": 40.47014,
        "NBest": [
            {
                "Confidence": 0.97532314,
                "Lexical": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "ITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "MaskedITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "Display": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
                "PronunciationAssessment": {
                    "AccuracyScore": 92,
                    "FluencyScore": 81,
                    "CompletenessScore": 93,
                    "PronScore": 85.6
                },
                "Words": [
                    // Words preceding "countryside" are omitted for brevity...
                    {
                        "Word": "countryside",
                        "Offset": 66200000,
                        "Duration": 7900000,
                        "PronunciationAssessment": {
                            "AccuracyScore": 30,
                            "ErrorType": "Mispronunciation"
                        },
                        "Syllables": [
                            {
                                "Syllable": "kahn",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 3
                                },
                                "Offset": 66200000,
                                "Duration": 2700000
                            },
                            {
                                "Syllable": "triy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 19
                                },
                                "Offset": 69000000,
                                "Duration": 1100000
                            },
                            {
                                "Syllable": "sayd",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 51
                                },
                                "Offset": 70200000,
                                "Duration": 3900000
                            }
                        ],
                        "Phonemes": [
                            {
                                "Phoneme": "k",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 66200000,
                                "Duration": 900000
                            },
                            {
                                "Phoneme": "ah",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 67200000,
                                "Duration": 1000000
                            },
                            {
                                "Phoneme": "n",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 11
                                },
                                "Offset": 68300000,
                                "Duration": 600000
                            },
                            {
                                "Phoneme": "t",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 16
                                },
                                "Offset": 69000000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "r",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 27
                                },
                                "Offset": 69400000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "iy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 15
                                },
                                "Offset": 69800000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "s",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 26
                                },
                                "Offset": 70200000,
                                "Duration": 1700000
                            },
                            {
                                "Phoneme": "ay",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 56
                                },
                                "Offset": 72000000,
                                "Duration": 1300000
                            },
                            {
                                "Phoneme": "d",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 100
                                },
                                "Offset": 73400000,
                                "Duration": 700000
                            }
                        ]
                    },
                    // Words following "countryside" are omitted for brevity...
                ]
            }
        ]
    }
}

發音評定的精細程度

發音評定提供多種不同精細程度的評定結果，從個別音素到整體文字輸入，面面俱到。

在全文檢索層級，發音評定會額外提供流暢性、完整性和韻律分數：流暢性表示語音與母語人士在單詞間的停頓運用上有多接近；完整性表示在參考文字輸入的語音中讀出的字數；韻律則表示說話者在演講中展現出自然、表達力和整體韻律的程度。接著會提供由正確性、流暢性、完整性和韻律彙總而成的整體分數，以指出給定語音的整體發音品質。發音評定也提供全文檢索層級的內容分數 (詞彙、文法和主題)。
在文字層級，發音評定可以自動偵測錯誤並同時提供正確性分數，以就給定語音中的遺漏、重複、插入和發音錯誤提供更詳細的資訊。
音節層級的精確度分數目前可透過 JSON 檔案或語音 SDK 來使用。
在音素層級，發音評定會提供每個音素的正確性分數，協助學習者進一步了解其語音的發音詳細資料。

除了精確度、流暢度和完整性的基準分數之外，Azure AI Foundry 中的發音評估功能還包含更全面的分數，以提供語音效能和瞭解各個層面的詳細意見反應。增強分數如下：韻律分數、詞彙分數、文法分數和主題分數。這些分數會就語音韻律、詞彙使用方式、文法正確性和主題理解提供寶貴的見解。

Azure AI Foundry 中整體發音分數和整體內容分數的螢幕快照。

在評定結果底部，會顯示兩種整體分數：發音分數和內容分數。在 [朗讀] 索引標籤中，您會找到顯示的 [發音分數]。在 [演講] 索引標籤中，會顯示 [發音分數] 和 [內容分數]。

發音分數：此分數代表發音品質的彙總評估，包含四個子層面。這些分數在具講稿和無講稿評定的 [朗讀] 和 [演講] 索引標籤中皆能找到。

正確性分數：評估發音的正確性。
流暢性分數：衡量語音流暢性和自然性的等級。
完整性分數：反映正確發音的字數。
韻律分數：評估是否使用適當的語調、節奏和重音。其中也引進與韻律評定相關的數個錯誤類型，例如非預期停頓、缺乏停頓和單一音調。與先前的引擎相比，這些錯誤類型提供更多有關發音錯誤的詳細資訊。

內容分數：此分數提供語音內容的彙總評定，包含三個子層面。此分數僅在無講稿評定的 [演講] 索引標籤中提供。

詞彙分數：評估說話者對單字的有效使用及其在指定內容中準確表達想法的適當性，以及語彙的複雜程度。
文法分數：評估文法使用方式的正確性和和句型的多樣性。這項分數將語彙正確性、文法正確性和句型結構多樣性納入考量，提供更全面的語言能力評估。
主題分數：評估對演講中所討論主題的理解和吻合程度。這項分數會評估說話者有效表達與指定主題相關的思想和想法的能力。

這些整體分數提供對發音和內容的全面評估，為學習者提供語音表現和理解各層面的寶貴意見反應。透過這些增強功能，語言學習者可以更深入了解其在發音和內容表達方面的優點和需要改進的領域。

注意

內容和韻律評定僅適用於 en-US 地區設定。

串流模式的評量分數

發音評估支援不中斷的串流模式。 Azure AI Foundry 示範最多允許在串流模式中錄製 60 分鐘，以進行評估。只要您未按停止錄製按鈕，評估程式就不會完成，而且您可以方便地暫停和繼續評估。

發音評定會評估發音的幾個層面。在 [評定結果] 底部，您可以看到 [發音分數] 作為彙總的整體分數，其中包含 4 個子層面：[正確性分數]、[流暢性分數]、[完整性分數] 和 [韻律分數]。在串流模式中，由於精確度分數、流利度分數和 Prosody 分數在錄製過程中會隨著時間而有所不同，因此我們在 Azure AI Foundry 中示範一種方法，在評估結束時以累加方式顯示近似整體分數，其加權僅具有精確度分數、流暢分數和 Prosody 分數。只有在按下停止按鈕之後，評估結束時才會計算 [完整性分數]，因此最終的發音整體分數會以 [正確性分數]、[流暢性分數]、[完整性分數] 和 [韻律分數] 加權彙總。

請參閱下面的示範範例，以取得在串流模式中評估發音的整個程序。

開始錄製

開始錄製時，底部的分數會從 0 開始改變。

錄製期間

在錄製長段落期間，您可以隨時暫停錄製。只要您未按下停止按鈕，就可以繼續評估錄製。

完成錄製

在按下停止按鈕之後，您可以在底部看到 [發音分數]、[正確性分數]、[流暢性分數]、[完整性分數] 和 [韻律分數]。

定價

作為基準，發音評定與語音轉換文字的使用成本相同，無論是隨用隨付或承諾用量層定價。如果您針對語音轉換文字購買承諾用量層，發音評定的費用會達到承諾用量。

發音評定功能還提供未包含在基準語音轉換文字價格中的其他分數：韻律、文法、主題和詞彙。這些分數不包含在基準語音轉換文字價格中，而是作為附加元件費用提供。如需定價詳細資訊，請參閱語音轉換文字定價。

下表顯示可用的發音評定分數，無論是在具講稿或無講稿評定中提供，以及是否包含在基準語音轉換文字價格或附加元件價格中。

分數	具講稿或無講稿	包含在基準語音轉換文字價格中？
準確率	具講稿和無講稿	Yes
流暢度	具講稿和無講稿	Yes
完整性	具講稿	Yes
誤讀	具講稿和無講稿	Yes
韻律	具講稿和無講稿	No
文法	僅限無講稿	No
主題	僅限無講稿	No
詞彙	僅限無講稿	No

負責 AI

AI 系統不僅包含技術，也包含使用該技術的人員、受其影響的人員及部署的環境。閱讀透明度資訊，了解在系統中負責任 AI 的使用和部署資訊。

下一步

使用語音 SDK 的發音評定
閱讀關於使用案例的部落格

共用方式為