評估生成式 AI 應用程式
重要
本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本沒有服務等級協定,不建議將其用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
在人工智慧的快速發展環境中,Generative AI Operations (GenAIOps) 的整合正在改變組織開發和部署 AI 應用程式的方式。 隨著企業越來越依賴 AI 來增強決策、改善客戶體驗並推動創新,因此無法誇大健全評估架構的重要性。 評估是產生 AI 生命週期的重要元件,可建立以 AI 為中心的應用程式的信心和信任。 如果未仔細設計,這些應用程式可能會產生在內容中捏造和未固定的輸出、不相關或不連貫,導致客戶體驗不佳,或更糟的是,延續社會陳規定型觀念、促進錯誤資訊、讓組織遭受惡意攻擊或各種其他負面影響。
評估工具有助於評估 AI 回應中內容風險的頻率和嚴重性或不良行為。 使用正確的評估工具執行反覆且系統化的評估,可協助小組測量及解決整個 AI 開發生命週期中潛在的回應品質、安全性或安全性考慮,從初始模型選擇到生產後監視。 GenAI Ops 生命周期生產內的評估。
藉由瞭解並實作每個階段的有效評估策略,組織可以確保其 AI 解決方案不僅符合初始期望,還能在真實世界環境中適應並茁壯成長。 讓我們深入了解評估如何融入 AI 生命週期的三個關鍵階段
基底模型選取
AI 生命週期的第一個階段牽涉到選取適當的基底模型。 Generative AI 模型在功能、強度和限制方面有很大的差異,因此必須識別最適合您特定使用案例的模型。 在基底模型評估期間,您會「四處走動」,藉由測試其輸出與您的應用程式相關的一組準則來比較不同的模型。
此階段的主要考慮可能包括:
- 精確度/品質:模型產生相關且一致的回應有多好?
- 特定工作的效能:模型可以處理使用案例所需的提示和內容類型嗎? 其延遲和成本如何?
- 偏差和道德考慮:模型會產生任何可能永久或促進有害造型的輸出嗎?
- 風險和安全性:模型是否有產生不安全或惡意內容的風險?
您可以探索 Azure AI Foundry 基準檢驗,以評估及比較公開可用數據集上的模型,同時在您自己的數據上重新產生基準檢驗結果。 或者,您可以依照示範方式,透過 Azure AI 評估 SDK 來評估許多基礎產生 AI 模型之一,請參閱 評估模型端點範例。
生產前評估
選取基底模型之後,下一個步驟是開發 AI 應用程式,例如 AI 支援的聊天機器人、擷取增強世代 (RAG) 應用程式、代理 AI 應用程式或任何其他產生 AI 工具。 在開發之後,生產前評估隨即開始。 在生產環境中部署應用程式之前,嚴格的測試是確保模型真正準備好供真實世界使用的必要條件。
生產前評估牽涉到:
- 使用評估數據集進行測試:這些數據集會模擬實際的用戶互動,以確保 AI 應用程式如預期般執行。
- 識別邊緣案例:尋找 AI 應用程式的回應品質可能會降低或產生不想要輸出的案例。
- 評估健全性:確保模型可以處理一系列輸入變化,而不會大幅降低品質或安全性。
- 測量關鍵計量:評估響應基礎、相關性和安全性等計量,以確認生產環境的整備程度。
生產前階段可作為最終質量檢查,降低部署不符合所需效能或安全標準的 AI 應用程式的風險。
- 攜帶您自己的數據:您可以使用自己的評估數據搭配 Azure AI Foundry 或 Azure AI Evaluation SDK 支援的 評估工具,在生產前評估應用程式中評估 AI 應用程式,包括 產生品質、 安全性或 自定義評估工具,以及 透過 Azure AI Foundry 入口網站檢視結果。
- 模擬器:如果您沒有評估數據(測試數據),Azure AI 評估 SDK 的模擬器 可藉由產生主題相關或對立查詢來協助。 這些模擬器會測試模型的回應情況適當或類似攻擊的查詢(邊緣案例)。
或者,您也可以使用 Azure AI Foundry 的評估小工具 來測試您產生的 AI 應用程式。
一旦達成令人滿意的結果,AI 應用程式就可以部署到生產環境。
生產後監視
部署之後,AI 應用程式會進入生產後評估階段,也稱為在線評估或監視。 在這個階段,此模型內嵌在真實世界的產品中,並回應實際的用戶查詢。 監視可確保模型會繼續如預期般運作,並適應使用者行為或內容的任何變更。
- 持續效能追蹤:使用關鍵計量定期測量 AI 應用程式的回應,以確保一致的輸出品質。
- 事件回應:快速響應實際使用期間可能發生的任何有害、不公平或不當輸出。
藉由 持續監視 AI 應用程式在生產環境中的行為,您可以維護高品質的用戶體驗,並迅速解決表面的任何問題。
推論
GenAIOps 全都是為了建立可靠且可重複的程式來管理其生命週期中的產生式 AI 應用程式。 評估在每個階段都扮演著重要的角色,從基礎模型選擇到生產前測試,到進行的生產後監視。 藉由在每一個步驟中有系統地測量和解決風險和精簡 AI 系統,小組可以建置不僅強大且可靠且安全的衍生式 AI 解決方案,以供真實世界使用。
速查表:
目的 | 處理 | 參數 |
---|---|---|
您正在評估什麼? | 識別或建置相關的評估工具 | - 品質與效能 ( 品質與效能範例筆記本) - 安全與安全性 (安全與安全性範例筆記本) - 自訂 (自訂範例筆記本) |
您應該使用哪些數據? | 上傳或產生相關的數據集 | 測量品質與效能 的一般模擬器(一般模擬器範例筆記本) - 用於測量安全性和安全性 的對抗模擬器(對抗模擬器範例筆記本) |
哪些資源應該進行評估? | 執行評估 | - 本機執行 - 遠端雲端執行 |
我的模型/應用程式如何執行? | 分析結果 | 檢視匯總分數、檢視詳細數據、分數詳細數據、比較評估回合 |
如何改善? | 對模型、應用程式或評估工具進行變更 | - 如果評估結果不符合人工意見反應,請調整您的評估工具。 - 如果評估結果符合人工意見反應,但不符合品質/安全閾值,請套用針對性的風險降低措施。 |