管理 AI – 管理 AI 的流程
本文概述管理 AI 工作負載的組織程式。 它提供從開發、部署和作業管理 AI 工作負載的建議。 有效的 AI 管理需要透過部署和進行中的作業,從開發到結構化的方法。 企業需要標準化的做法和定期監視,以防止數據與模型漂移等問題,確保 AI 在一段時間內保持準確且可靠。
管理 AI 作業
管理 AI 作業可確保 AI 生命週期的可見度和一致性。 藉由採用 MLOps、建立沙箱環境及建立 CI/CD 管線等作業架構,您可以監督開發、測試和部署。
採用 AI 作業架構。 針對傳統機器學習工作流程實 作 MLOps (機器學習作業)架構,以及 適用於產生式 AI 工作負載的 GenAIOps 。 這些作業架構會組織端對端迴圈,以進行 AI 開發。 每個架構都會影響工作負載小組的方法和工具。 如需詳細資訊,請參閱 MLOps 和 GenAIOps。
標準化 AI 開發工具。 定義和標準化 SDK 和 API 的使用,以在開發小組之間保持一致性。 Azure SDK for AI 工作負載之類的工具提供連結庫和 API,這些連結庫和 API 已針對調整 AI 模型進行優化,並將其整合到應用程式中。 針對產生 AI,將您的 AI 平臺和協調器標準化,例如 語意核心、LangChain 和 提示流程。
使用沙箱環境進行 AI 實驗。 使用沙箱環境進行 AI 模型實驗。 您想要跨開發、測試和生產環境保持一致性。 因此,沙箱環境應該與 AI 開發生命週期中的開發、測試和生產環境不同。 如果您在開發、測試和生產環境之間變更部署和治理模型,它可以隱藏並引入重大變更。
建立部署的持續整合和持續傳遞管線。 請確定您的數據管線涵蓋程式碼品質檢查,包括Linting和靜態分析。 數據管線也應該包含單元和整合測試,以及實驗和評估流程。 最後,納入生產部署步驟,例如在手動核准之後,將發行升階至測試和生產環境。 維護模型、提示流程和用戶端使用者介面之間的區隔,以確保一個元件的更新不會影響其他元件。 每個流程都應該有自己的生命週期,以供獨立升級使用。
管理 AI 部署
AI 部署管理是定義誰可以部署 AI 資源,以及誰控管這些端點。 以 AI 卓越中心為首的結構化方法可協助企業決定工作負載小組或中央小組應管理資源、平衡開發速度與治理需求。 AI CoE 應領導判斷最佳方法的努力。
使用 AI 資源的工作負載小組管理,以加快開發速度。 當工作負載小組管理 AI 資源時,他們擁有在治理原則範圍內部署和管理 AI 資源的自主權。 使用 Azure 原則,以一致的方式在所有工作負載環境中強制執行治理。 建立並傳達工作負載小組必須遵循的 AI 原則,以解決任何治理缺口。 例如,建立產生式 AI 原則來強制執行內容篩選設定,並防止使用不允許的模型。 讓工作負載小組清楚瞭解這些原則,並定期稽核。
使用 AI 資源的共用管理會增加 AI 治理。 在共用 AI 管理方法中,中央小組會管理所有 AI 工作負載的 AI 資源。 此小組會部署核心 AI 資源,並設定所有工作負載小組所使用的安全性和治理。 如果您想要單一小組控制整個工作負載的 AI 部署和治理,請使用此方法。
管理 AI 端點共用
跨工作負載共用 AI 端點可以簡化管理,但需要仔細考慮治理和模型需求。 企業應該只在單一工作負載內共用端點,且需求一致,因為不同需求的共用使用量可能會使治理複雜並增加成本。
當治理和模型需求有所不同時,請避免共用 AI 端點。 需要不同內容篩選設定的工作負載,例如輸入和輸出的控管,不應該共用端點。 此外,如果不同的 AI 模型可提供更符合工作負載需求的符合成本效益的方式,請勿共用單一 AI 端點。
只在單一工作負載內共用 AI 端點。 當工作負載小組有多個應用程式作為相同工作負載的一部分時,共用 AI 端點最適用。 AI 端點共用可提供最少的管理額外負荷,並簡化部署。 這些應用程式必須共用相同的治理需求和 AI 模型需求。 共用端點可能會導致您達到速率限制和配額限制。 大部分的 Azure 服務都有每個訂用帳戶的限制。 在訂用帳戶內,每個區域都有配額限制。
管理 AI 模型
AI 模型管理牽涉到設定治理結構、持續監視和重新定型,以在一段時間內維護效能。 此程式可協助企業符合道德標準、追蹤模型效能,並確保 AI 系統保持有效且符合商務目標。
建立 AI 監督的治理結構。 建立 卓越 AI 中心(AI CoE) 或任命 AI 潛在客戶。 他們應該確保遵守 負責任的 AI 標準。 它們應該根據這些報告來決定是否需要調整系統。 使用負責任 AI 儀錶板來產生模型輸出周圍的報表。
定義 AI 測量基準。 建立測量基準,以確保 AI 模型符合商務目標和道德標準。 使用與負責任 AI 原則相關的 KPI,例如公平性、透明度和精確度。 將這些 KPI 對應至 AI 工作負載。 例如,在客戶服務聊天機器人中,藉由評估模型在不同人口群組中的表現,來測量公平性。 若要進行這些測量,請從負責任 AI 儀錶板中使用的工具開始。
實作持續監視。 AI 工作負載可能會隨著時間而變更,因為數據不斷演進、模型更新或使用者行為轉變。 監視 AI 模型、 AI 資源、 AI 數據 ,以確保這些工作負載與 KPI 保持一致。 針對定義的負責任 AI 準則和計量,進行稽核以評估 AI 系統。
找出效能問題的根本原因。 藉由監視 AI 偵測到效能下降或精確度時,找出問題的來源。 請確定您已了解互動的每個階段,以找出問題並更快速地實作更正動作。 例如,如果客戶服務聊天機器人產生不正確的回應,監視應該可協助您判斷錯誤是否在提示製作或模型對內容的理解中。 使用 Azure 監視器和 Application Insights 等內建工具,主動識別效能瓶頸和異常狀況。
追蹤模型淘汰。 追蹤預先定型模型的淘汰,以防止廠商支持結束時發生效能問題。 例如,產生 AI 模型可能已被取代,因此您必須更新它以維護功能。 Azure AI Foundry 入口網站會顯示所有部署的模型淘汰日期。
視需要重新定型 AI 模型。 因為數據變更,導致模型隨著時間而降級。 根據模型效能或商務需求排程定期重新定型,以確保 AI 系統保持相關。 重新定型可能很昂貴,因此請評估初始定型成本,並使用該成本來評估您應該重新定型 AI 模型的頻率。 維護模型的版本控制,並確保執行不佳版本的復原機制。
建立模型升級程式。 使用品質閘道,根據效能準則,將定型、微調和重新定型的模型提升到較高的環境。 效能準則對每個應用程式而言都是唯一的。
管理 AI 成本
管理 AI 成本需要清楚瞭解與計算、記憶體和令牌處理等資源相關的費用。 您應該實作成本管理最佳做法、監視使用量,以及設定自動化警示,以避免非預期的費用並優化資源效率。
請遵循每個服務的成本管理最佳做法。 每個 Azure 服務都有特定的功能和最佳做法,可最大化成本優化。 熟悉以下指引,以規劃和管理 Azure AI Foundry、Azure OpenAI Service和 Azure Machine Learning的成本。
監視和最大化計費效率。 瞭解成本斷點以避免不必要的費用。 範例包括充分利用影像產生或每小時微調的固定價格閾值。 追蹤您的使用模式,包括每分鐘令牌(TPM)和每分鐘的要求(RPM),並據以調整模型和架構。 請考慮以承諾為基礎的計費模型,以取得一致的使用模式。
設定自動化成本警示。 使用預算警示會通知您非預期的費用,並建立預算策略來控制和預測您的 AI 費用。
如需使用 Azure OpenAI 的產生 AI 應用程式,請參閱這些 成本優化建議。
管理 AI 數據
有效的 AI 數據管理著重於在整個 AI 生命週期中維護數據精確度、完整性和敏感度。 當您策劃高質量的數據集和保護數據管線時,您的組織可以確保數據保持可靠且符合不斷變化的法規需求。
維護數據精確度並策劃黃金數據集。 開發一組授權數據集,用於兩種 AI 類型的一般測試和驗證。 持續策劃此數據集,以確保其反映最新、準確的資訊。
確保數據管線完整性。 開發和維護自定義數據管線,以確保數據收集到前置處理和儲存的數據完整性。 管線的每個步驟都必須安全,才能維護這兩種 AI 應用程式中的效能和可靠性。
管理數據敏感度變更。 了解數據的敏感度分類可能會隨著時間而變更。 您可能會想要因為商務或法規變更而將低敏感度數據重新分類為高度敏感度。 開發程式,以移除或取代下游系統中的敏感數據。 適用於雲端的 Microsoft Defender和Microsoft Purview 可協助您標記和管理敏感數據。 此程式從良好的數據目錄開始,再進行 AI 擷取。 發生變更時,請識別所有使用敏感數據的模型或系統。 可能的話,請使用排除重新分類敏感數據的數據集來重新定型 AI 模型。
管理 AI 商務持續性
AI 的商務持續性和災害復原牽涉到建立多區域部署,並定期測試復原計劃。 這些策略有助於確保 AI 系統在中斷期間保持運作,並將長時間中斷或數據遺失的風險降到最低。
使用適用於 AI 的多區域部署。 實作多區域部署,以確保產生式和非產生式 AI 系統的高可用性和復原能力。 這些策略會將停機時間降到最低,並確保重要的 AI 應用程式在區域性中斷或基礎結構失敗期間仍可運作。 請務必為定型和微調的模型實作必要的備援,以避免需要在中斷期間重新定型。
定期測試及驗證災害復原計劃。 對災害復原計劃執行定期測試,以確認您可以有效地還原行性和非行性 AI 系統。 包括測試數據還原程式和驗證程式,以確保所有 AI 元件在復原之後都能正常運作。 定期驗證可確保組織已針對真實世界事件做好準備,並將復原期間失敗的風險降到最低。
管理和追蹤 AI 系統的變更。 確定所有模型、數據和組態的變更都是透過 Git 等版本控制系統來管理。 這麼做對於追蹤修改並確保在復原期間還原舊版的能力非常重要。 針對衍生式和非行性 AI,應該就地自動稽核模型和系統變更,以便快速識別及還原非計劃性變更。