閱讀英文

共用方式為


必要條件:收集需求

評估驅動開發工作流程

定義清楚且全面的使用案例需求,是開發成功 RAG 應用程式的第一個重要步驟。 這些需求有兩個主要用途。 首先,它們有助於判定 RAG 是否為指定使用案例的最合適方法。 如果 RAG 確實適合,這些需求可指導解決方案設計、實作和評估決策。 在專案開始時投資時間以收集詳細需求,可避免開發程序後期出現重大挑戰和挫折,並確保產生的解決方案符合終端使用者和利害關係人的需求。 妥善定義的需求為開發生命週期的後續階段提供基礎,我們將逐步解說。

如需本節中的範例程式碼,請參閱 GitHub 存放庫。 您也可以使用存放庫程式代碼作為範本,用來建立您自己的 AI 應用程式。

使用案例是否適合 RAG?

您需要建立的第一件事是 RAG 是否適用於您的使用案例。 鑒於對 RAG 的炒作,大家很容易將其視為任何問題的可能解決方案。 不過,RAG 何時適合以及何時不適合存在細微差別。

RAG 在下列情況下為合適:

  • 因擷取的資訊 (非結構化和結構化) 而無法完全符合 LLM 的內容視窗
  • 從多個來源合成資訊 (例如,從主題的不同文章產生重點的摘要)
  • 根據使用者查詢進行動態擷取是必要的 (例如,指定使用者查詢,判定要從中擷取的資料來源)
  • 使用案例需要根據擷取的資訊產生新內容 (例如,回答問題、提供說明、提供建議)

RAG 在下列情況下可能不合適:

  • 任務不需要查詢特定的擷取。 例如,產生通話文字記錄摘要;即使個別文字記錄在 LLM 提示中以內容的形式提供,擷取的資訊仍會針對每個摘要保持不變。
  • 要擷取的整個資訊集適合 LLM 的內容視窗
  • 需要極低延遲的回應 (例如,當需要回應時,以毫秒為單位)
  • 以規則為基礎的簡單或範本式回應就已足夠 (例如,根據關鍵字提供預先定義答案的客戶支援聊天機器人)

探索的需求

在您確定 RAG 適合使用案例之後,請考慮下列問題,以擷取具體需求。 需求的優先順序如下:

🟢 P0:啟動 POC 之前,必須先定義此需求。

🟡 P1:在進入實際執行環境之前必須定義,但在 POC 期間可以反覆精簡完善。

⚪ P2:最好有需求。

這不是問題的完整清單。 不過,它應該為擷取 RAG 解決方案的主要需求提供紮實的基礎。

使用者體驗

定義使用者如何與 RAG 系統互動,以及預期的回應種類

🟢 [P0] RAG 鏈結的一般要求看起來會是什麼樣子的? 詢問利害關係人是否有潛在使用者查詢的範例。

🟢 [P0] 使用者預期會有哪種回應 (簡短答案、長格式說明、組合或其他內容)?

🟡 [P1] 使用者如何與系統互動? 透過聊天介面、搜尋列或其他形式?

🟡 [P1] hat 聲調或樣式應該產生回應? (正式、交談、技術?)

🟡 [P1] 應用程式如何處理模棱兩可、不完整或無關的查詢? 在這種情況下,是否應該提供任何形式的意見反應或指導?

⚪ [P2] 產生的輸出是否有特定的格式或簡報需求? 除了鏈結的回應之外,輸出是否應該包含任何中繼資料?

資料

判定將用於 RAG 解決方案的資料本質、來源和品質。

🟢 [P0] 有哪些可用來源可供使用?

對於每個資料來源:

  • 🟢 [P0] 資料是結構化還是非結構化?
  • 🟢 [P0] 擷取資料的來源格式為何 (例如 PDF、具有影像/資料表的文件、結構化 API 回應)?
  • 🟢 [P0] 該資料位於何處?
  • 🟢 [P0] 有多少資料可供使用?
  • 🟡 [P1] 資料更新的頻率為何? 應如何處理這些更新?
  • 🟡 [P1] 每個資料來源是否有任何已知的資料品質問題或不一致?

請考慮建立詳細目錄資料表來合併這項資訊,例如:

資料來源 來源 檔案類型 大小 更新頻率
資料來源 1 Unity 目錄磁碟區 JSON 10GB 每日
資料來源 2 公用 API XML NA (API) 即時
資料來源 3 SharePoint PDF、.docx 500MB 每月

效能條件約束

擷取 RAG 應用程式的效能和資源需求。

🟡 [P1] 產生回應的可接受延遲上限為何?

🟡 [P1] 第一個權杖可接受的最大時間為何?

🟡 [P1] 如果輸出正在進行串流,可接受的總延遲是否較高?

🟡 [P1] 計算資源是否有任何成本限制可供推斷?

🟡 [P1] 預期的使用模式和尖峰負載為何?

🟡 [P1] 系統應該能夠處理多少並行使用者或要求? Databricks 會透過使用模型服務自動調整的能力,以原生方式處理這類可擴縮性需求。

評估

建立隨著時間評估及改善 RAG 解決方案的方式。

🟢 [P0] 您想要影響的業務目標/KPI 為何? 什麼是基準值以及什麼事目標?

🟢 [P0] 哪些使用者或利害關係人會提供初始和持續的意見反應?

🟢 [P0] 應該使用哪些計量來評估產生的回應品質? Mosaic AI 代理程式評估提供一組建議使用的計量。

🟡 [P1] RAG 應用程式必須擅長哪些問題集才能進入實際執行環境?

🟡 [P1] [評估集] 是否存在? 是否可以取得使用者查詢的評估集,以及應擷取的基準真相答案和 (選用) 正確支援文件?

🟡 [P1] 如何收集並納入系統的使用者意見反應?

安全性

識別任何安全性和隱私權考量。

🟢 [P0] 是否有需要謹慎處理的敏感性/保密資料?

🟡 [P1] 存取控制是否需要在解決方案中實作 (例如,指定的使用者只能從一組受限制的文件擷取)?

部署

了解 RAG 解決方案如何整合、部署和維護。

🟡 RAG 解決方案應如何與現有的系統和工作流程整合?

🟡 模型應該如何部署、調整及進行版本設定? 本教學課程涵蓋如何使用 MLflow、Unity 目錄、代理程式 SDK 和模型服務,在 Databricks 上處理端對端生命週期。

範例

例如,請考慮這些問題如何套用至 Databricks 客戶支援小組使用的此範例 RAG 應用程式:

區域 考量 需求
使用者體驗 - 互動形式。
- 一般使用者查詢範例。
- 預期的回應格式和樣式。
- 處理模棱兩可或無關的查詢。
- 與 Slack 整合的聊天介面。
- 範例查詢:「如何減少叢集啟動時間?」 「我有什麼樣的支援計劃?」
- 適當時,清除程式碼片段的技術回應,以及相關文件的連結。
- 必要時提供內容相關的建議,並呈報至支援工程師。
資料 - 資料來源的數目和類型。
- 資料格式和位置。
- 資料大小和更新頻率。
- 資料品質與一致性。
- 三個資料來源。
- 公司文件 (HTML、PDF)。
- 已解決的支援票證 (JSON)。
- 社群論壇文章 (差異資料表)。
- 儲存在 Unity 目錄的資料,每周更新一次。
- 資料大小總計:5GB。
- 專用 DOC 與支援小組維護的資料結構和品質一致。
效能 - 可接受延遲上限。
- 成本條件約束。
- 預期的使用方式和並行。
- 延遲需求上限。
- 成本條件約束。
- 預期的尖峰負載。
評估 - 評估資料集可用性。
- 品質計量。
- 使用者意見反應收集。
- 來自每個產品領域的主題專家可協助檢閱輸出,並調整不正確的答案來建立評估資料集。
- 商務 KPI。
- 增加支援票證解決率。
- 減少每個支援票證花費的使用者時間。
- 品質計量。
- LLM 判斷的回答正確性和相關性。
- LLM 評委擷取精確度。
- 使用者附議或反對。
- 意見反應收集。
- 檢測 Slack 已提供讚成/反對。
安全性 - 敏感性資料處理。
- 存取控制需求。
- 擷取來源中不應含有敏感性客戶資料。
- 透過 Databricks Community SSO 進行使用者驗證。
部署 - 與現有系統整合。
- 部署與版本設定。
- 與支援票證系統整合。
- 部署為 Databricks 模型服務端點的鏈結。

後續步驟

開始步驟 1. 複製程式碼存放庫並建立計算

< 上一個:評估驅動開發

下一步:步驟 1。複製存放庫和建立計算 >