共用方式為


深度學習

本文簡要介紹如何使用 PyTorch、Tensorflow 和分散式訓練,在 Azure Databricks 上開發及微調深度學習模型。 它也包含頁面的連結,以及說明如何使用這些工具的範例筆記本。

PyTorch

PyTorch 包含在 Databricks Runtime ML 中,並提供 GPU 加速張量計算和高階功能,以建置深度學習網路。 您可以使用 Databricks 上的 PyTorch 執行單一節點訓練或分散式訓練。 請參閱 PyTorch

TensorFlow

Databricks Runtime ML 包含 TensorFlow 和 TensorBoard,因此您可以使用這些庫,而不需要安裝任何套件。 TensorFlow 支援 CPU、GPU 和 GPU 叢集上的深度學習和一般數值計算。 TensorBoard 提供可視化工具,可協助您偵錯和 optimize 機器學習和深度學習工作流程。 如需單一節點和分散式訓練範例,請參閱 TensorFlow

分散式訓練

因為深度學習模型是資料和計算密集型,因此分散式訓練可能很重要。 如需使用與 Ray、TorchDistributor 和 DeepSpeed 整合的分散式深度學習範例,請參閱分散式訓練

追蹤深度學習模型開發

追蹤仍然是 MLflow 生態系統的基石,對於深度學習的迭代本質尤其重要。 Databricks 使用 MLflow 來追蹤深度學習訓練執行和模型開發。 請參閱使用 MLflow 追蹤模型開發