Databricks Runtime for Machine Learning
Databricks Runtime for Machine Learning (Databricks Runtime ML) 可使用預先建置的機器學習和深度學習基礎結構 (包括最常見的 ML 和 DL 程式庫) 自動建立叢集。 如需每個 Databricks Runtime ML 版本中連結庫的完整
注意
若要存取 Unity Catalog 機器學習工作流程中的數據,叢集的存取模式必須是單一使用者(已指派)。 共用叢集與 Databricks Runtime for Machine Learning 不相容。 此外,Databricks Runtime ML 不支援於 TableACLs 叢集、,或具有 spark.databricks.pyspark.enableProcessIsolation config
set 至 true
的叢集上。
使用 Databricks Runtime ML 建立叢集
當您建立叢集時,從 Databricks 執行環境版本 的下拉選單中選擇 select Databricks Runtime ML 版本。 CPU 和已啟用 GPU 的 ML 執行階段都可使用。
如果您在筆記本的下拉選單中
如果您 select 已啟用 GPU 的 ML 執行時間,系統會提示您 select 相容的 驅動程式類型,背景工作類型。 不相容的執行個體類型會在下拉式功能表中呈現灰色。 已啟用 GPU 的執行個體類型列在 [GPU 加速] 標籤下。 如需有關建立 Azure Databricks GPU 叢集的資訊,請參閱已啟用 GPU 的計算。 Databricks Runtime ML 包含 GPU 硬體驅動程式和 NVIDIA 程式庫,例如 CUDA。
Photon 和 Databricks Runtime ML
當您建立執行 Databricks Runtime 15.2 ML 或更新版本的 CPU 叢集時,您可以選擇啟用 Photon。 Photon 使用 Spark SQL、Spark DataFrame、特徵工程、GraphFrame 和 xgboost4j 改善應用程式的效能。 預期不會改善使用 Spark RDD、Pandas UDF 和非 JVM 語言的應用程式 (例如 Python) 的效能。 因此,XGBoost、PyTorch 和 TensorFlow 等 Python 套件不會因 Photon 而得到改善。
Spark RDD API 和 Spark MLlib 與 Photon 的相容性有限。 使用 Spark RDD 或 Spark MLlib 處理大型資料集時,可能會遇到 Spark 記憶體問題。 請參閱 Spark 記憶體問題。
Databricks Runtime ML 中包含的程式庫
Databricks Runtime ML 包含各種熱門 ML 程式庫。 這些程式庫隨著每個版本的發佈而更新,以包含新功能和修正。
Databricks 已將支援的程式庫子集指定為最上層程式庫。 針對這些函式庫,Databricks 提供更快的 update 步調,並隨著每個運行時間版本更新至最新的套件版本(除了相依性衝突)。 Databricks 也提供最上層程式庫的進階支援、測試和內嵌最佳化。
如需 Databricks Runtime ML 的完整 list 最上層和其他提供的函式庫,請參閱 版本資訊。
您可以安裝其他程式庫,以為您的筆記本或叢集建立自訂環境。
- 若要讓程式庫可供叢集上執行的所有筆記本使用,請建立叢集程式庫。 您也可以使用 init 指令碼在建立時於叢集上安裝程式庫。
- 若要安裝僅適用於特定筆記本工作階段的程式庫,請使用筆記本範圍的 Python 程式庫。