共用方式為


工作區功能庫(舊版)

注意

本文件涵蓋工作區功能存放區。 工作區功能存放區僅適用於在 2024 年 8 月 19 日下午 4:00:00(UTC) 之前建立的工作區。

Databricks 建議在 Unity 中使用 功能工程。 工作區功能存放區未來將被淘汰。

為何要使用工作區特徵庫?

工作區功能存放區已與 Azure Databricks 的其他元件完全整合。

  • 可探索性。 可從 Databricks 工作區存取的特徵存放區 UI 可讓您瀏覽和搜尋現有的特徵。
  • 譜系。 當您在 Azure Databricks 中建立功能 table 時,用來建立功能 table 的數據源會儲存並存取。 針對功能 table中的每個功能,您也可以存取使用此功能的模型、筆記本、作業和端點。
  • 與模型評分和服務整合。 當您使用特徵存放區的特徵來訓練模型時,模型會封裝為特徵中繼資料。 當您使用模型進行批次評分或線上推斷時,它會自動從特徵存放區擷取特徵。 呼叫端不需要知道它們,也不需要包含查詢邏輯或使用 join 特徵來對新數據進行評分。 這可讓模型部署和更新變得更容易。
  • 時間點查詢。 特徵存放區支援需要時間點正確性的時間序列和事件型使用案例。

工作區功能存放區如何運作?

使用特徵存放區的一般機器學習工作流程會遵循下列路徑:

  1. 撰寫程式碼,將未經處理資料轉換為特徵,並建立包含所需特徵的 Spark DataFrame。
  2. 在工作區功能存放區中將 DataFrame 寫入為功能 table。
  3. 使用特徵存放區中的特徵來訓練模型。 當您這樣做時,模型會儲存用於訓練的特徵規格。 當模型用於推斷時,它會自動地從適當的特徵中聯結特徵 tables。
  4. 模型登錄中註冊模型。

現在您可以使用模型從新資料中做出預測。 針對批次使用案例,模型會自動從特徵存放區擷取所需的特徵。

批次機器學習使用案例的特徵存放區工作流程。

針對即時服務使用案例,請將特徵發佈至線上存放區。 請參閱協力廠商線上存放區

在推斷時,模型會從線上存放區讀取預先計算的特徵,並將其與用戶端要求中提供的資料一起聯結至模型服務端點。

所服務的機器學習模型的特徵存放區流程。

開始使用工作區功能儲存庫

若要開始使用 get,請試試這些範例筆記本。 基本筆記本會逐步引導您創建特徵名稱 table,使用它訓練模型,然後通過自動特徵查找執行批量評分。 它也會向您介紹特徵工程 UI,並示範如何使用它來搜尋特徵,並了解如何建立和使用特徵。

基本工作區特徵存放區範例筆記本

Get 筆記本

計程車範例筆記本說明建立特徵、更新特徵以及將它們用於模型訓練和批次推斷的流程。

工作區特徵存放區計程車範例筆記本

Get 筆記本

支援的資料類型

如需支援的資料類型,請參閱支援的資源類型