深度學習
本文簡要介紹如何使用 PyTorch、Tensorflow 和分散式訓練,在 Azure Databricks 上開發及微調深度學習模型。 它也包含頁面的連結,以及說明如何使用這些工具的範例筆記本。
- 如需有關在 Azure Databricks 中最佳化深度學習工作流程的一般指導方針,請參閱 Azure Databricks 上的深度學習最佳做法。
- 如需有關在 Azure Databricks 上使用大型語言模型和生成式 AI 的資訊,請參閱:
PyTorch
PyTorch 包含在 Databricks Runtime ML 中,並提供 GPU 加速張量計算和高階功能,以建置深度學習網路。 您可以使用 Databricks 上的 PyTorch 執行單一節點訓練或分散式訓練。 請參閱 PyTorch。
TensorFlow
Databricks Runtime ML 包含 TensorFlow 和 TensorBoard,因此您可以使用這些庫,而不需要安裝任何套件。 TensorFlow 支援 CPU、GPU 和 GPU 叢集上的深度學習和一般數值計算。 TensorBoard 提供可視化工具,可協助您偵錯和 optimize 機器學習和深度學習工作流程。 如需單一節點和分散式訓練範例,請參閱 TensorFlow。
分散式訓練
因為深度學習模型是資料和計算密集型,因此分散式訓練可能很重要。 如需使用與 Ray、TorchDistributor 和 DeepSpeed 整合的分散式深度學習範例,請參閱分散式訓練。
追蹤深度學習模型開發
追蹤仍然是 MLflow 生態系統的基石,對於深度學習的迭代本質尤其重要。 Databricks 使用 MLflow 來追蹤深度學習訓練執行和模型開發。 請參閱使用 MLflow 追蹤模型開發。