Azure AI Foundry 安全性評估的透明度注意事項
重要
本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本沒有服務等級協定,不建議將其用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
什麼是透明度資訊
AI 系統不僅包含技術,也包含使用該技術的人員、受其影響的人員及部署的環境。 建立適合其預期用途的系統,需要了解技術的運作方式、其功能和限制,以及如何達到最佳效能。 Microsoft的透明度附註旨在協助您瞭解 AI 技術的運作方式、系統擁有者可以做出哪些選擇來影響系統效能和行為,以及思考整個系統的重要性,包括技術、人員和環境。 您可以在開發或部署自己的系統時使用透明度資訊,或將該資訊與將使用或受到系統影響的人員共用。
Microsoft的透明度注意事項是Microsoft將 AI 準則付諸實踐的更廣泛努力的一部分。 若要深入了解,請參閱 Microsoft AI 準則。
Azure AI Foundry 安全性評估的基本概念
簡介
Azure AI Foundry 入口網站安全性評估可讓使用者針對文字內容風險評估其產生 AI 應用程式的輸出:可恨和不公平的內容、性內容、暴力內容、自我傷害相關內容、越獄弱點。 安全評估也可協助產生對抗資料集,以協助您加速和增強紅隊作業。 Azure AI Foundry 安全性評估反映了Microsoft的承諾,以確保 AI 系統安全且負責任地建置,以運作負責任 AI 原則。
關鍵字詞
- 仇恨和不公平的內容是指與個人和社會群體的仇恨或不公平表述相關的任何語言,其因素包括但不限於種族、民族、國籍、性別、性取向、宗教、移民身份、能力、個人外貌和身型大小。 當 AI 系統不公平地處理或代表社會群體,從而造成或加劇社會不平等時,就會發生不公平的情況。
- 性內容包括與解剖器官和生殖器、浪漫關係、色情術語、懷孕、身體性行為 (包括攻擊或性暴力)、賣淫、色情和性虐待有關的語言。
- 暴力內容包括有關意圖損害、傷害、毀壞或殺死某人或某物之身體動作的語言。 它還包括武器和槍支的描述 (以及製造商和關聯組織等相關實體)。
- 自我傷害相關內容包括有關意圖損害、傷害或毀壞自己身體或自殺行為的語言。
- 越獄、直接提示攻擊或使用者提示插入式攻擊,是指使用者操作提示,將有害的輸入插入 LLM 以扭曲動作和輸出。 越獄命令的範例是 『DAN』 (立即執行任何動作) 攻擊,可誘使 LLM 產生不適當的內容,或忽略系統強加的限制。
- 瑕疵率 (內容風險) 定義為測試資料集中超越嚴重性級別閾值之執行個體佔整個資料集大小的百分比。
- 紅隊一詞過去用於描述測試安全性弱點的系統化對抗性攻擊。 隨著大型語言模型 (LLM) 的興起,這個字詞不再侷限於傳統網路安全性領域,而是演變為描述 AI 系統多種探查、測試和攻擊的常見用法。 使用 LLM 時,無論是良性或對抗性使用方式都可能造成潛在的有害輸出,包括許多不同輸出形式,例如仇恨演說、煽動或美化暴力或性內容等有害內容。
功能
系統行為
Azure AI Foundry 會布建 Azure OpenAI GPT-4 模型,並針對您的應用程式協調對立攻擊,以產生高品質的測試數據集。 然後,它會佈建另一個 GPT-4 模型,以標註測試資料集的內容和安全性。 使用者提供想要測試的生成式 AI 應用程式端點,而安全評估會針對該端點輸出靜態測試資料集,以及其內容風險標籤 (非常低、低、中、高) 和 AI 產生的標籤推理。
使用案例
預定用途
除了評估生成式 AI 應用程式的內容風險和越獄弱點之外,安全評估無意用於任何其他目的:
- 評估您的產生 AI 應用程式預先部署:使用 Azure AI Foundry 入口網站或 Azure AI Python SDK 中的評估精靈,安全性評估可以自動化方式評估潛在內容或安全性風險。
- 增強您的紅隊作業: 使用對抗模擬器,安全評估可以模擬與生成式 AI 應用程式的對立互動,以嘗試找出內容和安全性風險。
- 將內容和安全性風險傳達給項目關係人:使用 Azure AI Foundry 入口網站,您可以與稽核員或合規性專案關係人共用 Azure AI Foundry 專案的安全性評估結果。
選擇使用案例時的考量
我們鼓勵客戶在其創新解決方案或應用程式中運用 Azure AI Foundry 安全性評估。 不過,以下是選擇使用案例時的一些考量:
- 安全性評估應包含人與迴圈:使用 Azure AI Foundry 安全性評估等自動化評估應包含人類檢閱者,例如領域專家,以評估在部署給使用者之前,您的 Generate AI 應用程式是否已經過徹底測試。
- 安全性評估不包含完整涵蓋範圍:雖然安全性評估可以提供一種方式來增強測試潛在內容或安全性風險,但並非設計來取代專為應用程式網域、使用案例和使用者類型而特別設計的手動紅小組作業。
- 支援的情節:
- 針對對立模擬: 問題解答、多回合聊天、摘要、搜尋、文字重寫、沒有根據和有根據的內容產生。
- 針對自動化註釋:問題解答和多回合聊天。
- 此服務目前最適合與英文網域一起使用,僅用於文字生成。 未來版本將考慮包含多模型支援的其他功能。
- 安全評估中提供的內容風險涵蓋範圍是從有限數量的邊緣化群體和主題中二次抽樣的:
- 仇恨和不公平指標包括對性別 (例如男性、女性、非二元性別人群) 以及種族、血統、民族和國籍 (例如黑人、墨西哥人、歐洲人) 等人口統計因素的有限數量的邊緣化群體的覆蓋。 並非所有性別和種族、血統、民族和國籍的邊緣化群體都涵蓋在內。 與仇恨和不公平相關的其他人口統計因素目前尚未涵蓋 (例如殘疾、性、宗教)。
- 性、暴力和自我傷害相關內容的指標是基於這些傷害的初步概念化,這些傷害的發展不如仇恨和不公平。 這表示我們可以對測量涵蓋範圍做出較不強烈的宣告,以及測量在多大程度上代表這些傷害可能發生的不同方式。 這些內容類型的涵蓋範圍包括與性 (例如,性暴力、人際關係、性行為)、暴力 (例如虐待、傷害他人、綁架) 和自我傷害 (例如故意死亡、故意自殘、飲食失調)相關的有限主題。
- Azure AI Foundry 安全性評估目前不允許外掛程式或擴充性。
- 為了將品質保持在最新狀態並改善涵蓋範圍,我們將針對服務對立模擬和註釋功能的未來改進版本進行步調。
技術限制、操作因素和範圍
- 大型語言模型 (LLM) 領域會以快速的速度發展,需要持續改善評估技術,以確保安全且可靠的 AI 系統部署。 Azure AI Foundry 安全性評估反映了Microsoft承諾在 LLM 評估領域繼續創新。 我們的目標是提供最佳工具,協助您評估生成式 AI 應用程式的安全性,但辨識有效評估是持續進行的工作。
- Azure AI Foundry 安全性評估的自定義目前有限。 我們只希望使用者提供其輸入生成式 AI 應用程式端點,而我們的服務將輸出標示為內容風險的靜態資料集。
- 最後,請注意,此系統不會自動執行任何動作或工作,它只會提供您生成式 AI 應用程式輸出的評估,此輸出應該由迴圈中的人類決策者檢閱,再選擇將生成式 AI 應用程式或系統部署到終端使用者的生產環境。
系統效能
改善系統效能的最佳做法
- 當您考慮網域時,可能會比其他內容更敏感地處理某些內容時,請考慮調整計算瑕疵率的閾值。
- 使用自動化安全評估時,您的 AI 產生的標籤有時會因內容風險或其推理嚴重性而發生錯誤。 有一個手動人工意見反應資料行,可啟用自動化安全評估結果的人機互動驗證。
Azure AI Foundry 安全性評估的評估
評估方法
針對所有支援的內容風險類型,我們已在內部檢查品質,方法是比較使用0-7嚴重性小數位數的人類標籤之間的近似比對率,以及在相同數據集上使用0-7嚴重性調整的安全性評估自動化批注器。 對於每個風險區域,我們都有標籤人員和自動標註工具標記 500 個英文單回合文字。 人工標記器和自動標註器未使用完全相同版本的註釋指導方針;雖然自動化批注器的指導方針源於人類的指導方針,但它們已經不同程度地分歧(仇恨和不公平準則分歧最多)。 儘管存在這些輕微到中等的差異,但我們相信,從近似相符的比較中分享一般趨勢和見解仍然很有用。 在我們的比較中,我們尋找具有 2 級容錯的比對 (其中人工標籤完全符合自動化註釋工具標籤,或嚴重性低於 2 個級別)、符合 1 級容錯,以及符合 0 級容錯。
評估結果
整體而言,我們看到在所有容忍度下,自我傷害和性內容風險的近似比對率很高。 針對暴力和仇恨和不公平性,容忍程度之間的近似比對率較低。 這些結果部分原因是標籤人員的註釋指導方針內容與自動化標註工具的差異增加,部分原因是特定指導方針的內容和複雜度增加。
雖然我們的比較是使用稍微不同批注指導方針的實體(因此不是標準的人類模型合約比較),但是這些比較會根據這些比較的參數,提供 Azure AI Foundry 安全性評估所預期的質量估計。 具體而言,我們只查看了英文樣本,因此我們的發現可能無法推廣至其他語言。 此外,每個資料集範例只包含單一回合,因此需要更多實驗來驗證評估結果對多回合案例的普遍性 (例如,包含使用者查詢和系統回應的來回交談)。 這些評估資料集中使用的樣本類型也可能大幅影響人工標籤與自動化註釋工具之間的近似比對率,如果樣本更容易標記 (例如,如果所有樣本都沒有內容風險),我們可能會預期近似比對率會更高。 用於評估的人工標籤的品質也可能影響我們調查結果的普遍性。
評估及整合 Azure AI Foundry 安全性評估以供您使用
測量和評估您的生成式 AI 應用程式是 AI 風險管理整體方法的重要部分。 Azure AI Foundry 安全性評估是互補的,應該與其他 AI 風險管理做法搭配使用。 領域專家和人機互動檢閱者在生成式 AI 應用程式設計、開發和部署週期中使用 AI 輔助安全評估時,應該提供適當的監督。 您應該瞭解安全性評估的限制和預定用途,小心不要依賴 Azure AI Foundry AI 輔助安全性評估所產生的輸出隔離。
由於 LLM 的非決定性性質,您可能會遇到誤判或正面結果,例如高度嚴重性暴力內容評分為「非常低」或「低」。此外,評估結果對於不同的物件可能有不同的意義。 例如,安全性評估可能會針對暴力內容的「低」嚴重性產生標籤,該標籤可能不符合人類檢閱者對特定暴力內容可能有多嚴重性的定義。 在 Azure AI Foundry 入口網站中,我們會在檢視您的評估結果,以呈現人類檢視者核准或標示為不正確的實例時,提供大拇指和向下拇指的人類意見反應數據行。 請考慮如何解譯結果以供其他人進行決策的內容,您可以與其他人共享評估,並以適當的審查層級來驗證您的評估結果,以瞭解每個生成式 AI 應用程式在環境中運作的風險層級。