如何在 Azure AI Foundry 入口網站中基準檢驗模型

發行項
11/24/2024

重要

本文中標示為 (預覽) 的項目目前處於公開預覽狀態。此預覽版本沒有服務等級協定，不建議將其用於生產工作負載。可能不支援特定功能，或可能已經限制功能。如需詳細資訊，請參閱 Microsoft Azure 預覽版增補使用條款。

在本文中，您將瞭解如何使用 Azure AI Foundry 入口網站中的模型基準檢驗工具，比較模型和數據集之間的基準檢驗。您也會瞭解如何分析基準檢驗結果，以及使用您的數據執行效能評定。基準檢驗可協助您針對哪些模型符合特定使用案例或應用程式的需求做出明智的決策。

必要條件

具有有效付款方式的 Azure 訂用帳戶。免費版或試用版 Azure 訂用帳戶將無法運作。如果您沒有 Azure 訂用帳戶，請建立付費 Azure 帳戶以開始。
Azure AI Foundry 專案。

透過模型目錄存取模型基準檢驗

Azure AI 支援模型基準檢驗，適用於熱門且最常使用的選取模型。請遵循下列步驟，使用詳細的基準檢驗結果，直接從 Azure AI Foundry 模型目錄比較和選取模型：

登入 Azure AI Foundry。
如果您尚未在專案中，請選取它。
從左側瀏覽窗格中選取 [模型目錄 ]。

選取您感興趣的模型。例如，選取 gpt-4o。此動作會開啟模型的 [概觀] 頁面。

提示

從模型類別目錄，您可以使用 [集合] 篩選並選取 [基準檢驗結果]，來顯示具有基準檢驗的模型。這些模型具有 類似直方圖的基準檢驗 圖示。
移至 [ 基準檢驗] 索引 標籤，以檢查模型的基準檢驗結果。
返回模型目錄的首頁。
選取 模型類別目錄首頁上的 [比較模型]，以探索具有基準檢驗支援的模型 、檢視其計量，以及分析不同模型之間的取捨。此分析可告知您選取最符合您需求的模型。
選取您想要的工作，並指定感興趣的維度，例如 AI 品質 與成本，以評估不同模型之間的取捨。
您可以切換至 [ 列表] 檢視 ，以存取每個模型的詳細結果。

分析基準檢驗結果

當您位於特定模型的 [基準檢驗] 索引標籤中時，您可以收集廣泛的資訊，以進一步瞭解和解譯基準檢驗結果，包括：

高階匯總分數：這些 AI 品質、成本、延遲和輸送量的分數提供模型的效能快速概觀。
比較圖表：這些圖表會顯示與相關模型比較的模型相對位置。
計量比較數據表：此數據表會顯示每個計量的詳細結果。

根據預設，Azure AI Foundry 會跨各種計量和數據集顯示平均索引，以提供模型效能的高階概觀。

若要存取特定計量和數據集的基準檢驗結果：

選取圖表上的展開按鈕。快顯比較圖表會顯示詳細資訊，並提供更大的比較彈性。
選取感興趣的計量，並根據您的特定案例選擇不同的數據集。如需用來計算結果之公用數據集計量和描述的詳細定義，請選取 [閱讀更多]。

使用您的數據評估基準檢驗結果

上一節顯示使用公用數據集Microsoft計算的基準檢驗結果。不過，您可以嘗試使用您的數據重新產生同一組計量。

返回模型卡片中的 [基準檢驗] 索引標籤。
選取 [ 試用您自己的數據 ] 以使用您的數據來評估模型。數據評估可協助您查看模型在特定案例中的執行方式。