共用方式為


教學課程:建立和部署基礎模型微調執行

重要

這項功能在下列區域開放公開預覽centraluseastuseastus2northcentraluswestus

本文說明如何使用基礎模型微調(現在是馬賽克 AI 模型訓練的一部分)API 來建立和設定執行,然後使用 Databricks UI 和馬賽克 AI 模型服務來檢閱結果並部署模型。

需求

  • 下列其中一個 Azure 區域的工作區:centraluseastuseastus2northcentraluswestcentraluswestuswestus3
  • Databricks Runtime 12.2 LTS ML 或更新版本。
  • 本教學課程必須在 Databricks Notebook 執行。
  • 用接受的格式訓練資料。 請參閱 準備基礎模型微調的數據。

步驟 1:準備訓練用的資料

請參閱 準備基礎模型微調的數據。

步驟 2:安裝 databricks_genai SDK

使用下列安裝 databricks_genai SDK。

%pip install databricks_genai

接著,匯入 foundation_model 程式庫:

dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm

步驟 3:建立訓練回合

使用基礎模型微調 create() 函式建立定型執行。 需要下列 parameters:

  • model:您想訓練的模型。
  • train_data_path:訓練資料集所在位置。
  • register_to:您想要儲存檢查點的 Unity Catalogcatalog 和 schemawhere。

例如:

run = fm.create(model='meta-llama/Meta-Llama-3.1-8B-Instruct',
                train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
                register_to='main.my-directory',
                training_duration='1ep')

run

步驟 4:檢視回合的狀態

完成訓練回合所需的時間,取決於權杖數目、模型和 GPU 可用性。 為了加快訓練速度,Databricks 建議您使用保留的運算。 如需詳細資料,請連絡 Databricks 帳戶團隊。

啟動回合之後,您可以使用 get_events() 監視回合狀態。

run.get_events()

步驟 5:檢視計量和輸出

請遵循下列步驟,在 Databricks UI 檢視結果:

  1. 在 Databricks 工作區,按下左側導覽列的[實驗]。
  2. Select 從 list您的實驗。
  3. 檢閱 [圖表]索引標籤的計量圖表。提供評估資料路徑時,才會為每個訓練回合產生訓練計量與評估計量。
    1. 損失是呈現進度的主要訓練計量。 評估損失可用來查看模型是否過度學習訓練資料。 不過,由於受監督訓練工作似乎會過度學習評估損失,而模型會持續改善,因此不應完全依賴損失。
    2. 正確性越高,模型越好,但請記住,正確性逼近 100% 可能表示過度學習。
    3. 回合之後,MLflow 會出現下列計量:
      • LanguageCrossEntropy 會對語言模型輸出進行交叉熵計算。 分數越低越好。
      • LanguagePerplexity 測量語言模型根據前一個單字或字元,預測文字區塊下一個單字或字元的表現優劣。 分數越低越好。
      • TokenAccuracy 計算語言模型化權杖層級的精確度。 分數越高越好。
    4. 在這個索引標籤,如果您想,也可以指定檢視評估提示的輸出。

步驟 6:在部署之前,先使用馬賽克 AI 代理程式評估評估多個自定義模型

請參閱 什麼是馬賽克 AI 代理程式評估?

步驟 7:部署模型

訓練過程完成後會自動在 Unity Catalog 中註冊您的模型。 模型根據您在回合 register_to 方法之 create() 欄位指定的項目註冊。

若要將模型部署為服務,請遵循下列步驟:

  1. 導航至 Unity Catalog中的模型。
  2. 按下[將模型部署為服務]。
  3. 按下[建立服務端點]。
  4. 在 [名稱]欄位中,提供端點的名稱。
  5. 按一下 [建立]。

其他資源