使用 AutoML 分類

發行項
11/19/2024

使用 AutoML 自動尋找最佳分類演算法和超參數位態，以預測指定輸入的標籤或類別。

使用UI設定分類實驗

您可以使用 AutoML UI 搭配下列步驟來設定分類問題：

在提要欄位中，選取 [ 實驗]。
在 [分類] 卡片中，選取 [開始訓練]。

[設定 AutoML 實驗] 頁面隨即顯示。在此頁面上，您可以：設定 AutoML 處理序；指定要預測的資料集、問題類型、目標或標籤資料行；設定用來對實驗執行進行評估和評分的計量；設定停止條件。
在 [計算] 欄位中，選取執行 Databricks Runtime ML 的叢集。
在 [資料集] 底下，選取 [瀏覽]。
瀏覽至想要使用的資料表，然後按下 [選取]。資料表結構描述隨即顯示。
- 在 Databricks Runtime 10.3 ML 和更新版本中，您可以指定 AutoML 應使用哪些資料行進行訓練。您無法移除選取作為預測目標或作為分割資料的時間資料行的資料行。
- 在 Databricks Runtime 10.4 LTS ML 和更新版本中，您可以從[插補] 下拉式功能表選取一個值，指定如何插補 null 值。根據預設，AutoML 會根據資料行類型和內容選取插補方法。
注意

如果您指定非預設插補方法，AutoML 不會執行語意類型偵測。
按下 [預測目標] 欄位。一個下拉式功能表將隨即顯示，並列出結構描述中的資料行。選取您希望模型預測的資料行。
[實驗名稱] 欄位會顯示預設名稱。若要變更，在欄位中輸入新名稱。

您也可以：

指定其他設定選項。
使用 Feature Store 中的現有功能資料表增強原始輸入資料集。

進階組態

開啟 [進階組態](選用) 區段以存取這些參數。

評估計量是用來對執行評分的主要計量。
在 Databricks Runtime 10.4 LTS ML 和更新版本中，可以將訓練架構排除在考慮之外。根據預設，AutoML 會使用 AutoML 演算法下所列的架構來訓練模型。
您可以編輯停止條件。預設停止條件為：
- 對於預測實驗，120 分鐘後停止。
- 在 Databricks Runtime 10.4 LTS ML 及以下版本中，對於分類和迴歸實驗，在 60 分鐘後或完成 200 次測試後停止，以先發生者為準。對於 Databricks Runtime 11.0 ML 及更新版本，試用次數不作為停止條件。
- 在 Databricks Runtime 10.4 ML 和更新版本中，對於分類和迴歸實驗，AutoML 會納入早期停止功能；如果驗證計量不再有所改善，該功能會停止訓練和微調模型。
在 Databricks Runtime 10.4 LTS ML 和更新版本中，您可以選取以 time column 時間順序分割數據以進行定型、驗證和測試（僅適用於分類和回歸）。
Databricks 建議不要填入 [資料目錄] 欄位。這樣做會觸發將資料集安全地儲存為 MLflow 成品的預設行為。可以指定 DBFS 路徑，但在此情況下，資料集不會繼承 AutoML 實驗的存取權限。

執行實驗並監視結果

若要啟動 AutoML 實驗，按下 [啟動 AutoML]。實驗會開始執行，[AutoML 訓練] 頁面將隨即顯示。若要重新整理執行資料表，按下。

檢視實驗進度

您可以從這個頁面執行下列動作：

隨時停止實驗。
開啟資料探索筆記本。
監視執行。
瀏覽至任何執行的執行頁面。

使用 Databricks Runtime 10.1 ML 和更新版本時，AutoML 會顯示資料集潛在問題的警告，例如不支援的資料行類型或高基數資料行。

注意

Databricks 會盡最大努力指出潛在錯誤或問題。不過，這可能並不完整，而且可能無法擷取您可能搜尋的問題或錯誤。

若要查看資料集的任何警告，請在實驗完成後，按下訓練頁面或實驗頁面上的 [警告] 索引標籤。

AutoML 警告

檢視結果

實驗完成時，您可以：

使用 MLflow 註冊並部署一個模型。
選取 [檢視最佳模型的筆記本] 以檢閱和編輯建立最佳模型的筆記本。
選取 [檢視資料探索筆記本] 以開啟資料探索筆記本。
搜尋、篩選執行資料表中的執行並進行排序。
參閱任意執行的詳細資料：
- 按下進入 MLflow 執行，即可找到產生的包含試執行原始程式碼的筆記本。筆記本會儲存在執行頁面的 [成品] 區段中。如果工作區系統管理員已啟用下載成品，您可以下載此筆記本並將其匯入到工作區。
- 若要檢視執行結果，請按下 [模型] 資料行或 [開始時間] 資料行。執行頁面隨即顯示，其中顯示試用執行的相關資訊 (例如參數、計量和標記)，以及執行所建立的成品 (包括模型)。此頁面也包含您可以使用模型進行預測的程式碼片段。

若要稍後返回此 AutoML 實驗，請在 [實驗] 頁面上的資料表中找到它。每個 AutoML 實驗的結果 (包括資料探索和訓練筆記本) 都會儲存在執行實驗之使用者的主資料夾的 databricks_automl 資料夾中。

註冊和部署模型

可以使用 AutoML UI 註冊和部署模型：

選取 [模型] 資料行中要註冊之模型的連結。執行完成時，頂端資料列是最佳模型 (根據主要計量)。
選取在模型登錄中註冊模型。
選取側邊欄中的 [模型] 瀏覽至模型登錄。
在模型資料表中選取模型的名稱。
從已註冊的模型頁面，可以透過模型服務提供模型。

沒有名為「pandas.core.indexes.numeric」的模組

透過模型服務為使用 AutoML 建置的模型提供服務時，您可能會收到錯誤：No module named 'pandas.core.indexes.numeric。

這是由於 AutoML 與模型服務端點環境之間的 pandas 版本不相容。您可以執行 add-pandas-dependency.py script 來解決此錯誤。此指令碼會為您記錄的模型編輯 requirements.txt 和 conda.yaml，以包含適當的 pandas 相依性版本：pandas==1.5.3

修改指令碼以包含記錄模型時所在的 MLflow 執行的 run_id。
將模型重新註冊至 MLflow 模型登錄。
嘗試為新版 MLflow 模型提供服務。

共用方式為