什麼是 AI/BI Genie 空間
本文介紹 AI/BI Genie,這是一項 Azure Databricks 功能,可讓商務小組使用自然語言與其數據互動。 其使用專為您的組織術語和數據量身打造的生成式 AI,並能夠透過使用者意見反饋來監控和優化其效能。
概觀
資料分析師等領域專家,使用資料集、範例查詢和文字指導方針設定 Genie 空間,以協助 Genie 將商務問題轉譯為分析查詢。 設定之後,商務使用者可以提出問題並產生視覺效果,以了解操作資料。 Genie 會隨著你的資料變更和使用者提出新問題持續更新其語意知識。 如需 DatabricksIQ 的其他資訊,請參閱 DatabricksIQ 支援的功能。
AI/BI Genie 會從批注數據表和數據行中選取相關的名稱和描述,以將自然語言問題轉換成對等的 SQL 查詢。 然後,它會以產生的查詢和結果資料表來回應 (可能的話)。 如果 Genie 無法產生答案,它可以在提供回應之前提出後續問題來釐清。
範例使用案例
你可以建立不同的 Genie 空間,為各種非技術對象提供服務。 下列案例描述兩個可能的使用案例。
範例 1:將商機狀態視覺化
銷售經理想要按其準銷售案源階段取得未結案和已結案商機的目前狀態。 他們可以使用自然語言與 Genie 空間互動,並自動產生視覺效果。
下列 GIF 顯示此項互動:
範例 2:追蹤物流
物流公司想要使用 Genie 空間,以協助不同部門的商務使用者追蹤營運和財務詳細資料。 他們為其運送設施經理設定一個 Genie 空間以追蹤貨物運送,並為其財務主管設定另一個空間以了解其財務健全狀況。
Genie 如何產生回應
Genie 會使用 複合 AI 系統 來解譯商務問題併產生解答。 複合 AI 系統透過結合多個互動元件來處理 AI 應用程式中的工作,而不是使用簡單的統計模型。 複合 AI 系統是 AI 應用程式越來越常見的設計模式,因為它們的效能和彈性。 如需詳細資訊,請參閱 從模型轉移到複合 AI 系統 。
當使用者提交問題時,Genie 會剖析要求、識別相關的數據源,並決定如何回應提示。 您提供的指示與 Unity 目錄元數據結合,可讓 Genie 推斷商業和技術邏輯。 Genie 會以智慧方式篩選範例 SQL 查詢、數據表和數據行元數據,以及聊天記錄,以選取回應要求的最相關信息。
Genie 會使用下列元件來產生回應:
- 數據表元數據:包含數據表名稱、描述,以及定義的主鍵 (PK) 和外鍵 (FK) 關聯性。 Genie 會使用此數據來剖析要求,並將自然語言提示轉換成 SQL。
- 數據行名稱和描述:Genie 會以智慧方式篩選要包含的相關數據行名稱和描述。
- 範例 SQL 查詢:Genie 會從 指令智慧地選取相關的 SQL 範例。
- SQL 函式:已在空間中新增的所有 SQL 函式。
- 說明:以 一般指示 提供的純文字筆記作為背景內容。
- 提示和回應歷程記錄:目前聊天的提示和回應會包含為上下文。 如有必要,由於設定 令牌限制,因此會排除聊天記錄的最舊部分。
注意
預設不會包含某些數據表詳細數據,例如擁有者和數據表大小。 若要存取這項資訊,您可以使用 Unity Catalog 目錄提供的資訊架構檢視。 默認檢視可能包含不必要的詳細數據,因此在 頂端建立自定義檢視有助於專注於您需要的特定資訊。 如需資訊架構中可用項目的詳細資訊,請參閱 資訊架構。
如果 Genie 傳回查詢作為結果,它會在指定的 SQL 倉儲上執行。 重試會自動處理,而 SQL 資料庫會處理並行執行和擴展性。
我應該使用哪些資料?
Genie 空間可以包含註冊至 Unity 目錄的一或多個數據表,包括 Managed 數據表、外部數據表、外部表和具現化視圖。 AI/BI Genie 會使用連結至 Unity Catalog 物件的中繼資料來產生回覆。 正確標註的資料集搭配你提供的特定指示是為使用者建立正面體驗的關鍵。
Databricks 建議如下:
- 編製分析使用量的資料:將檢視分層以減少資料行數量,並新增特定使用案例資訊,以提升回覆品質。
- 將 Genie 空間中的數據表和數據行數目降到最低:只包含回答指定網域問題所需的數據表和數據行。 不必要的數據表或數據行可能會導致 Genie 提供混淆或不正確的答案,或顯示錯誤訊息。
- 定義主鍵 (PK)/外鍵 (FK) 關聯性:使用 Unity 目錄定義 PK/FK 關聯性,讓 Genie 瞭解您的數據連線方式。
信任的資產
信任的資產會將結果精確度的額外保證層傳達給空間使用者。 當參數化查詢範例或 SQL 函式的確切文字用於產生回覆時,Genie 會將回覆標記為受信任的資產。 請參閱在 AI/BI Genie 空間中使用受信任的資產。
聊天線程
Genie 空間互動多半在聊天視窗中進行。 聊天線程會儲存每個用戶的互動記錄。 每個聊天對話都會保留先前提問的相關內容。 Genie 會使用對話聊天歷程記錄中的內容,在使用者詢問後續問題時學習,以進一步探索或重新聚焦結果集。
至少具備「可檢視」空間存取權的使用者可以檢視自己的聊天記錄。 具有至少 CAN EDIT 許可權的使用者可以在空間的 [歷程記錄] 索引標籤中檢閱所有問題和解答。
檢查回應
大部分的回應都包含自然語言說明,以及顯示相關結果集的數據表。 精確的回覆結構會根據問題而有所不同。 所有回覆都包括為回答問題而產生的 SQL 查詢。
空間使用者和作者可以檢閱其問題的回應。 他們可以對每個回應豎起大拇指或向下大拇指來評分,或要求檢查回應。 空間編輯器和作者可以在 Genie 空間中使用 [歷程記錄] 標籤來檢閱這些意見反饋。
使用基準評估回覆
基準可讓你擴大 Genie 空間中個別回覆的測試與評估。 不同於指令,基準旨在評估 Genie 空間,而非用於通知。 Genie 不會將基準問題或 SQL 範例用於改善 Genie 的內容。
你可以使用基準執行測試問題的集合,並使用回覆測量 Genie 的正確性。 您可以選擇性地包含可傳回預期結果的 SQL 語句。 當基準檢驗問題執行時,Genie 的回應會與 SQL 語句所提供的結果進行比較,並針對精確度進行評分。 如果未提供任何 SQL 答案,問題會標示為檢閱。
隱私權與安全性
問:Genie 使用什麼模型?
Genie 使用 Azure OpenAI 模型。
問:哪些數據會傳送至模型?
Genie spaces 會使用元數據和指示來產生自然語言問題的回應。 Genie 無法存取數據列層級的數據。
為了處理回應,Genie 會使用下列專案:
- 使用者提交的自然語言提示
- 數據表名稱和描述
- 數據列標題和描述
- 一般指示
- SQL 查詢範例
- SQL 函式
問:Azure OpenAI 會收集我的數據嗎?
否。 Databricks 已選擇豁免濫用監視和人工審核計劃,根據該計劃,Microsoft不會儲存傳送至 Azure OpenAI 服務的任何提示和完成。 如需詳細資訊,請參閱 Microsoft的檔。