Azure AI Foundry 入口網站中的模型基準檢驗
重要
本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本沒有服務等級協定,不建議將其用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
在 Azure AI Foundry 入口網站中,您可以比較產業中可用的模型和數據集的基準檢驗,以決定哪一個符合您的商務案例。 您可以直接存取模型目錄中的詳細基準檢驗結果。 無論您已經有模型或正在探索模型,Azure AI 中的基準檢驗數據都可讓您快速且有效率地做出明智的決策。
Azure AI 支援模型基準檢驗,適用於熱門且最常使用的選取模型。 支援的模型具有 類似直方圖的基準檢驗 圖示。 您可以使用 [集合] 篩選並選取 [基準檢驗結果],在模型目錄中找到這些模型。 然後,您可以使用搜尋功能來尋找特定模型。
模型基準可協助您在起始任何作業之前,針對模型和資料集的永續性做出明智的決策。 基準是根據對基準計量的全面比較,針對工作策劃的最佳效能模型清單。 Azure AI Foundry 會根據模型目錄集合,為模型提供下列基準檢驗:
- 大型語言模型 (LLM) 和小型語言模型 (SLM) 之間的基準
- 內嵌模型之間的基準檢驗
LLM 和 SLM 的基準
模型基準檢驗會評估下列類別的 LLM 和 SLM:品質、效能和成本。 由於新的計量和資料集會新增至現有的模型,且新的模型會新增至模型目錄,會定期更新基準。
品質
Azure AI 會評估各種計量的 LLM 和 SLM 品質,這些計量分為兩個主要類別:精確度和提示輔助計量:
針對精確度計量:
計量 | 描述 |
---|---|
準確度 | 正確性分數可在資料集和模型層級取得。 在資料集層級,該分數是針對資料集中所有範例計算的正確性計量的平均值。 使用的正確性計量在所有情況下都是exact-match ,但使用pass@1 計量的 HumanEval 數據集除外。 完全比對會根據數據集比較產生的文字與正確的答案,如果產生的文字完全符合答案,則報告一個,否則為零。 pass@1 計量會測量在程式碼產生工作中通過一組單元測試的模型解決方案比例。 在模型層級,正確性分數是每個模型的資料集層級正確性的平均值。 |
如需提示輔助計量:
計量 | 描述 |
---|---|
連貫性 | 連貫性會評估語言模型以順暢流動、自然閱讀,以及類似人類語言的方式產生輸出的成效。 |
流暢度 | 流暢度會評估生成式 AI 預測答案的語言能力。 會評估產生的文字遵守文法規則、語法結構,以及詞彙適當使用方式的成效,從而產生語言正確和聽起來很自然的回應。 |
GPT 相似性 | GPTSimilarity 是一種量化真實句子(或文件)與 AI 模型產生的預測句子之間相似性的度量。 計量是藉由第一次計算句子層級內嵌,使用內嵌 API 來計算地面真相和模型的預測。 這些內嵌代表句子的高維度向量表示法,擷取其語意意義和內容。 |
基礎性 | 基礎性會測量語言模型產生的答案與輸入來源的資訊如何對應。 |
相關性 | 相關性會測量語言模型所產生回應的範圍,與給定的問題貼近且直接相關。 |
Azure AI 也會顯示品質索引,如下所示:
索引 | 描述 |
---|---|
品質索引 | 品質索引的計算方式是將 GPTSimilarity 相應減少為零到一,然後是精確度計量的平均值。 品質索引的較高值比較好。 |
品質索引代表超過 15 個標準數據集的適用主要計量(精確度、重新調整 GPTSimilarity)的平均分數,並以零到一的尺規提供。
品質索引構成兩種計量類別:
- 精確度(例如完全相符或
pass@k
)。 範圍從零到一。 - 提示型計量(例如 GPTSimilarity、基礎性、一致性、流暢度和相關性)。 範圍從一到五。
品質索引值的穩定性會提供模型整體品質的指標。
效能
效能計量會根據每天傳送的 24 個線索(每個記錄的兩個要求)計算為 14 天的總和,每個記錄之間各間隔一小時。 下列預設參數會用於模型端點的每個要求:
參數 | 值 | 適用於 |
---|---|---|
區域 | 美國東部/美國東部2 | 無伺服器 API 和 Azure OpenAI |
每分鐘令牌 (TPM) 速率限制 | 30k (以 Azure OpenAI 為基礎的 180 RPM) N/A (無伺服器 API) |
針對 Azure OpenAI 模型,根據部署類型(標準、全域、全域標準等等,有速率限制範圍的使用者可以使用選取專案。 對於無伺服器 API,此設定會抽象化。 |
要求數目 | 每小時在一條小徑中提出兩個要求(每天 24 條小路) | 無伺服器 API、Azure OpenAI |
軌跡/回合數目 | 14 天,每天 24 條小徑,336 次跑步 | 無伺服器 API、Azure OpenAI |
提示/內容長度 | 中度長度 | 無伺服器 API、Azure OpenAI |
已處理的權杖數目(中等) | 80:20 輸入與輸出令牌的比例,也就是800個輸入令牌與200個輸出令牌。 | 無伺服器 API、Azure OpenAI |
並行要求數目 | 一個 (要求會依序傳送) | 無伺服器 API、Azure OpenAI |
資料 | 綜合 (從靜態文字準備的輸入提示) | 無伺服器 API、Azure OpenAI |
區域 | 美國東部/美國東部2 | 無伺服器 API 和 Azure OpenAI |
部署類型 | 標準 | 僅適用於 Azure OpenAI |
串流 | True | 適用於無伺服器 API 和 Azure OpenAI。 針對透過 Managed 計算部署的模型,請將 max_token = 1 設定為複寫串流案例,以計算受控計算的總時間到第一個令牌 (TTFT) 等計量。 |
權杖化工具 | Tiktoken 套件 (Azure OpenAI) 擁抱臉部模型識別碼 (無伺服器 API) |
擁抱臉部模型識別碼 (Azure 無伺服器 API) |
LLM 和 SLM 的效能會透過下列計量進行評估:
計量 | 描述 |
---|---|
延遲平均 | 處理要求所花費的平均時間,會透過多個要求計算。 為了計算此計量,我們會每小時將要求傳送至端點,為期兩周,並計算平均值。 |
延遲 P50 | 延遲的第50個百分位數值(延遲的中位數)(要求與收到具有成功程式代碼的整個響應之間所花費的時間)。 例如,當我們將要求傳送至端點時,50% 的要求會在 『x』 秒內完成,而 『x』 是延遲度量。 |
延遲 P90 | 延遲的第90個百分位數值(要求與收到具有成功程式代碼的整個響應之間所花費的時間)。 例如,當我們將要求傳送至端點時,90% 的要求會在 『x』 秒內完成,而 『x』 是延遲度量。 |
延遲 P95 | 延遲的第 95 個百分位數值(要求與收到具有成功程式代碼的整個響應之間所花費的時間)。 例如,當我們將要求傳送至端點時,95% 的要求會在 『x』 秒內完成,而 『x』 是延遲度量。 |
延遲 P99 | 延遲的第99個百分位數值(要求與收到具有成功程式代碼的整個響應之間所花費的時間)。 例如,當我們將要求傳送至端點時,99% 的要求會在 『x』 秒內完成,而 『x』 是延遲度量。 |
輸送量 GTPS | 每秒產生的令牌數 (GTPS) 是從要求傳送至端點時每秒產生的輸出令牌數目。 |
輸送量 TTPS | 每秒令牌總數 (TTPS) 是每秒處理的令牌總數,包括來自輸入提示和產生的輸出令牌。 |
延遲TTFT | 第一個令牌的總時間 (TTFT) 是啟用串流時從端點傳回之第一個令牌所花費的時間。 |
令牌之間的時間 | 此計量是收到令牌之間的時間。 |
Azure AI 也會顯示延遲和輸送量的效能索引,如下所示:
索引 | 描述 |
---|---|
延遲索引 | 第一個令牌的平均時間。 較低的值比較好。 |
輸送量索引 | 每秒平均產生的令牌。 數值愈高愈好。 |
對於延遲或輸送量等效能計量,第一次令牌的時間和每秒產生的令牌可提供更佳的整體感知模型的典型效能和行為。 我們會定期重新整理效能數位。
成本
成本計算是使用裝載在 Azure AI 平臺上的 LLM 或 SLM 模型端點的估計值。 Azure AI 支援顯示無伺服器 API 和 Azure OpenAI 模型的成本。 由於這些成本可能會有所變更,因此我們會定期重新整理成本計算。
LLM 和 SLM 的成本會透過下列計量進行評估:
計量 | 描述 |
---|---|
每個輸入令牌的成本 | 1 百萬個輸入令牌的無伺服器 API 部署成本 |
每個輸出令牌的成本 | 100 萬個輸出令牌的無伺服器 API 部署成本 |
預估成本 | 每個輸入令牌的成本和每個輸出令牌的成本總和的成本,比率為 3:1。 |
Azure AI 也會顯示成本索引,如下所示:
索引 | 描述 |
---|---|
成本索引 | 預估成本。 較低的值比較好。 |
內嵌模型的基準
模型基準檢驗會根據質量評估內嵌模型。
品質
內嵌模型的品質會透過下列計量進行評估:
計量 | 描述 |
---|---|
準確度 | 精確度是所處理預測總數中正確預測的比例。 |
F1 分數 | F1 分數是有效位數和召回率的加權平均數,其中最佳值為一個(完美的精確度和召回率),而最差的是零。 |
平均平均精確度 (MAP) | MAP 會評估排名和推薦系統的品質。 其中會測量建議項目的相關性,以及系統將更相關的項目放在最上層的能力。 值的範圍可以從零到一,而 MAP 愈高,系統就越能將相關專案放在清單中。 |
正規化折扣累積增益 (NDCG) | NDCG 會評估機器學習演算法根據相關性排序專案的能力。 它會比較排名與清單頂端所有相關專案的理想順序,其中 k 是清單長度,同時評估排名品質。 在我們的基準檢驗中,k=10,以 的 ndcg_at_10 計量表示,這表示我們查看前10個專案。 |
精確度 | 精確度會測量模型正確識別特定類別執行個體的能力。 精確度會顯示在預測目標類別時機器學習模型正確的頻率。 |
Spearman 相互關聯 | 以餘弦相似性為基礎的 Spearman 相互關聯是先計算變數之間的餘弦相似性,然後排名這些分數,並使用排名來計算 Spearman 相互關聯。 |
V 量值 | V 量值是用來評估叢集品質的計量。 V 量值會計算為同質性和完整性的調和平均數,以確保兩者之間的平衡,以取得有意義的分數。 可能的分數介於零和一之間,其中一個是完全完整的標籤。 |
分數的計算
個別分數
基準檢驗結果源自通常用於語言模型評估的公用數據集。 在大部分情況下,資料會裝載在 GitHub 存放庫中,由資料建立者或策展人維護。 Azure AI 評估管線會從其原始來源下載資料、從每個範例資料列擷取提示、產生模型回應,然後計算相關的正確性計量。
提示建構會遵循每個數據集的最佳做法,如介紹數據集和業界標準的論文所指定。 在大部分情況下,每個提示都包含數 個鏡頭,也就是數個完整問題和工作模型質素解答的範例。 評估管線會透過從評估中保留的部分資料中抽取問題和答案來建立嘗試。