教學課程:建立和部署基礎模型微調執行
重要
這項功能在下列區域開放公開預覽:centralus
、eastus
、eastus2
、northcentralus
和 westus
。
本文說明如何使用基礎模型微調(現在是馬賽克 AI 模型訓練的一部分)API 來建立和設定執行,然後使用 Databricks UI 和馬賽克 AI 模型服務來檢閱結果並部署模型。
需求
- 下列其中一個 Azure 區域的工作區:
centralus
、eastus
、eastus2
、northcentralus
、westcentralus
、westus
、westus3
。 - Databricks Runtime 12.2 LTS ML 或更新版本。
- 本教學課程必須在 Databricks Notebook 執行。
- 用接受的格式訓練資料。 請參閱 準備基礎模型微調的數據。
步驟 1:準備訓練用的資料
請參閱 準備基礎模型微調的數據。
步驟 2:安裝 databricks_genai
SDK
使用下列安裝 databricks_genai
SDK。
%pip install databricks_genai
接著,匯入 foundation_model
程式庫:
dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm
步驟 3:建立訓練回合
使用基礎模型微調 create()
函式建立定型執行。 需要下列 parameters:
-
model
:您想訓練的模型。 -
train_data_path
:訓練資料集所在位置。 -
register_to
:您想要儲存檢查點的 Unity Catalogcatalog 和 schemawhere。
例如:
run = fm.create(model='meta-llama/Meta-Llama-3.1-8B-Instruct',
train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
register_to='main.my-directory',
training_duration='1ep')
run
步驟 4:檢視回合的狀態
完成訓練回合所需的時間,取決於權杖數目、模型和 GPU 可用性。 為了加快訓練速度,Databricks 建議您使用保留的運算。 如需詳細資料,請連絡 Databricks 帳戶團隊。
啟動回合之後,您可以使用 get_events()
監視回合狀態。
run.get_events()
步驟 5:檢視計量和輸出
請遵循下列步驟,在 Databricks UI 檢視結果:
- 在 Databricks 工作區,按下左側導覽列的[實驗]。
- Select 從 list您的實驗。
- 檢閱 [圖表]索引標籤的計量圖表。提供評估資料路徑時,才會為每個訓練回合產生訓練計量與評估計量。
- 損失是呈現進度的主要訓練計量。 評估損失可用來查看模型是否過度學習訓練資料。 不過,由於受監督訓練工作似乎會過度學習評估損失,而模型會持續改善,因此不應完全依賴損失。
- 正確性越高,模型越好,但請記住,正確性逼近 100% 可能表示過度學習。
- 回合之後,MLflow 會出現下列計量:
-
LanguageCrossEntropy
會對語言模型輸出進行交叉熵計算。 分數越低越好。 -
LanguagePerplexity
測量語言模型根據前一個單字或字元,預測文字區塊下一個單字或字元的表現優劣。 分數越低越好。 -
TokenAccuracy
計算語言模型化權杖層級的精確度。 分數越高越好。
-
- 在這個索引標籤,如果您想,也可以指定檢視評估提示的輸出。
步驟 6:在部署之前,先使用馬賽克 AI 代理程式評估評估多個自定義模型
請參閱 什麼是馬賽克 AI 代理程式評估?。
步驟 7:部署模型
訓練過程完成後會自動在 Unity Catalog 中註冊您的模型。 模型根據您在回合 register_to
方法之 create()
欄位指定的項目註冊。
若要將模型部署為服務,請遵循下列步驟:
- 導航至 Unity Catalog中的模型。
- 按下[將模型部署為服務]。
- 按下[建立服務端點]。
- 在 [名稱]欄位中,提供端點的名稱。
- 按一下 [建立]。
其他資源
- 使用基礎模型微調 API 建立定型執行
- 基礎模型微調
- 透過 Azure Databricks 提供的模型服務
- 如需逐步說明資料準備、微調訓練回合組態和部署的指令微調範例,請參閱指令微調:具名實體辨識示範筆記本。