Azure Databricks 概念

發行項
11/22/2024

本文介紹您需要了解的基本概念，以便有效地使用 Azure Databricks。

帳戶與工作區

在 Azure Databricks 中，工作區是雲端中的 Azure Databricks 部署，可作為團隊存取 Databricks 資產的環境。根據需求，您的組織可以選擇擁有多個工作區或只有一個工作區。

Azure Databricks 帳戶代表可包含多個工作區的單一實體。啟用 Unity 目錄的帳戶可用來管理使用者及其在帳戶中所有工作區集中存取資料的存取權。

計費：Databricks 單位 (DBU)

Azure Databricks 會根據 Databricks 單位 (DBU) 計費，這是以 VM 執行個體類型為基礎的每小時處理功能的單位。

請參閱 Azure Databricks 定價頁面。

驗證與授權

本節說明當您管理 Azure Databricks 身分識別，及其 Azure Databricks 資產存取權時需要知道的概念。

User

可以存取系統的唯一個人。使用者識別會以電子郵件地址表示。請參閱管理使用者。

服務主體

服務識別，用於作業、自動化工具和系統，例如指令碼、應用程式和 CI/CD 平台。服務主體會以應用程式識別碼表示。請參閱管理服務主體。

群組

身分識別的集合。群組可簡化身分識別管理，讓您更輕鬆地指派對工作區、資料和其他安全性實體物件的存取權。所有 Databricks 身分識別都可以指派為群組的成員。請參閱管理群組。

存取控制清單 (ACL)

附加至工作區、叢集、作業、資料表或實驗的權限清單。 ACL 會指定哪些使用者或系統進程會被授與物件存取權限，以及資產上允許哪些作業。一般 ACL 中的每個項目都會指定主體和作業。請參閱存取控制清單。

個人存取權杖 (PAT)

個人存取權杖是用來驗證 REST API 呼叫、技術夥伴連線和其他工具的字串。請參閱 Azure Databricks 個人存取權杖驗證。

Microsoft Entra ID 權杖也可用來向 REST API 進行驗證。

Azure Databricks 介面

本節說明了在 Azure Databricks 中存取資產的介面。

UI

Azure Databricks UI 是與功能互動的圖形化介面，例如工作區資料夾及其內含物件、資料物件和計算資源。

REST API

Databricks REST API 提供端點來修改或要求 Azure Databricks 帳戶和工作區物件的相關資訊。請參閱帳戶參考和工作區參考。

SQL REST API

SQL REST API 可讓您將 SQL 物件上的工作自動化。請參閱 SQL API。

CLI

Databricks CLI 託管於 GitHub 上。 CLI 建置於 Databricks REST API 之上。

資料管理

本節說明邏輯物件，其中會儲存您饋送至機器學習演算法的資料，以及您執行分析的資料。此外，它也會描述用於探索和管理資料物件的平台內 UI。

Unity 目錄

Unity 目錄是 Azure Databricks 上資料和 AI 資產的統一治理解決方案，可跨 Databricks 工作區提供集中式存取控制、稽核、譜系和資料探索功能。請參閱什麼是 Unity Catalog？。

DBFS 根目錄

重要

使用 DBFS 根或 DBFS 掛接來儲存和存取資料是已被取代的模式，Databricks 不建議這麼做。相反地，Databricks 建議使用 Unity 目錄來管理所有資料的存取權。請參閱什麼是 Unity Catalog？。

DBFS 根目錄預設為所有使用者可用的儲存位置。請參閱什麼是 DBFS？。

目錄總管

目錄總管可讓您探索和管理資料和 AI 資產，包括結構描述 (資料庫)、資料表、模型、磁碟區 (非表格式資料)、函式和已註冊的 ML 模型。您可以使用它來尋找資料物件和擁有者、了解資料表之間的資料關聯性，以及管理權限和共用。請參閱什麼是目錄總管？。

Database

組織的資料物件集合，例如資料表或檢視和函式，以便輕鬆存取、管理和更新資料物件。請參閱什麼是 Azure Databricks 中的目錄？

Table

結構化資料的呈現。您可以使用 Apache Spark SQL 和 Apache Spark API 來查詢資料表。請參閱什麼是數據表和檢視？。

差異資料表

根據預設，Azure Databricks 上建立的所有資料表都是差異資料表。差異資料表以 Delta Lake 開放原始碼專案為基礎，這是雲端物件存放區上高效能 ACID 資料表儲存體的架構。差異資料表會將資料儲存為雲端物件儲存體上的檔案目錄，並將資料表中繼資料註冊至目錄和結構描述內的中繼存放區。

深入了解 Delta 品牌技術。

Metastore

儲存資料倉儲中各種資料表和資料分割的所有結構資訊的元件，包括資料行和資料行類型資訊、讀取和寫入資料所需的序列化程式和還原序列化程式，以及儲存資料的對應檔案。請參閱中繼存放區

每個 Azure Databricks 部署都有可供所有叢集存取的中央 Hive 中繼存放區，用於保存資料表中繼資料。您也可以選擇使用現有的外部 Hive 中繼存放區。

計算管理

本節說明在 Azure Databricks 中執行計算所需的概念。

Cluster

執行筆記本和作業的一組計算資源與組態。叢集有兩種類型：通用和作業。請參閱計算。

您可以使用 UI、CLI 或 REST API 來建立通用叢集。您可以手動終止並重新啟動通用叢集。多個使用者可以共用這類叢集，以執行共同作業的互動式分析。
當您在新工作叢集上執行工作時，Azure Databricks Job Scheduler 會建立工作叢集，並在工作完成時終止叢集。您無法重新啟動作業叢集。

集區

一組閒置、立即可用的執行個體，來減少叢集啟動和自動調整的時間。連結至集區時，叢集會從集區配置其驅動程式和背景工作角色節點。請參閱集區組態參考。

如果集區沒有足夠的閒置的執行個體，就會透過從執行個體提供者配置新的執行個體來進行擴充。當連結的叢集終止時，所使用的執行個體會傳回集區，並可由不同的叢集重複使用。

Databricks Runtime

Azure Databricks 管理的叢集上執行的核心元件集。請參閱計算。 Azure Databricks 具有下列執行階段：

Databricks Runtime 包含 Apache Spark，但也新增了一些元件和更新，可大幅改善巨量資料分析的可用性、效能和安全性。
Databricks Runtime for Machine Learning 建置在 Databricks Runtime 上，並提供預先建置的機器學習基礎結構，與 Azure Databricks 工作區的所有功能整合。它包含多種熱門的函式庫，包括 TensorFlow、Keras、PyTorch 和 XGBoost。

工作流程

[工作流程] 工作區 UI 提供作業和 DLT 管線 UI 的項目，這是可讓您協調和排程工作流程的工具。

工作

協調和排程筆記本、程式庫和其他工作的非互動式機制。請參閱排程及協調工作流程

管線

差異即時資料表 Pipelines 提供宣告式架構，可建置可靠、可維護且可測試的資料處理管線。請參閱什麼是差異即時資料表？。

工作負載

工作負載是執行工作或工作群組所需處理功能的量。 Azure Databricks 會識別兩種類型的工作負載：資料工程 (作業) 和資料分析 (通用)。

資料工程：Azure Databricks 作業排程器為每個工作負載建立的作業叢集上執行 (自動化) 工作負載。
資料分析 在通用叢集上執行 (互動式) 工作負載。互動式工作負載通常在 Azure Databricks 筆記本內執行命令。不過，在現有的通用叢集上執行作業也會被視為互動式工作負載。

執行內容

每個支援的程式設計語言的「讀取、求值、輸出」迴圈 (REPL) 環境狀態。僅支援 Python、R、Scala 和 SQL 語言。

資料工程

資料工程工具可協助資料科學家、資料工程師、資料分析師和機器學習工程師共同作業。

工作區

工作區是用來存取您所有 Azure Databricks 資產的環境。工作區會將物件 (筆記本、程式庫、儀表板和實驗) 組織成資料夾，並提供資料物件和計算資源的存取權。

筆記本

Web 型介面，可用來建立資料科學和機器學習工作流程，其中包含可執行的命令、視覺效果和敘述文字。請參閱 Databricks Notebook 簡介。

程式庫

叢集上執行的筆記本或作業可使用的程式碼套件。 Databricks Runtime 包含許多程式庫，您也可以上傳自己的程式庫。請參閱程式庫。

Git 資料夾 (先前稱為 Repos)

資料夾，其內容會透過同步至遠端 Git 存放庫來共同建立版本。 Databricks Git 資料夾與 Git 整合，為您的專案提供來源和版本控制。

AI 和機器學習

Databricks 提供整合式端對端環境，並提供受控服務來開發和部署 AI 與機器學習應用程式。

Mosaic AI

Databricks Mosaic AI 研究的產品和服務廠牌名稱，這是負責 Databricks 在生成式 AI 中取得最大突破的研究人員和工程師團隊。 Mosaic AI 產品包括 Databricks 中的 ML 和 AI 功能。請參閱 Mosaic 研究。

機器學習執行階段

為了協助您開發 ML 和 AI 模型，Databricks 提供 Databricks Runtime for Machine Learning，使用預先建置的機器學習和深度學習基礎結構 (包括最常見的 ML 和 DL 程式庫) 自動建立計算。它也具有內建、預先設定的 GPU 支援，包括驅動程式和支援媒體櫃。瀏覽至 Databricks Runtime 版本資訊版本和相容性中最新執行階段版本的相關資訊。

Experiment

MLflow 執行集合，用於訓練機器學習模型。請參閱使用 MLflow 實驗組織訓練執行。

功能

功能是 ML 模型的重要元件。功能存放區可在整個組織中啟用功能共用和探索，也可確保相同的功能計算程式碼用於模型訓練和推斷。請參閱特徵工程與服務。

GenAI 模型

Databricks 支援探索、開發和部署生成式 AI 模型，包括：

AI 遊樂場在工作區提供聊天一樣的環境，您可以在其中測試、提示和比較 LLM。請參閱使用 AI 遊樂場與 LLM 和原型 GenAI 應用程式聊天。
您可以查詢的一組內建的預先設定基礎模型：
- 請參閱按權杖付費的 Foundation Model API。
- 請參閱 [建議] 從 Unity 目錄部署基礎模型，以取得只需按一下即可提供的基礎模型。
第三方託管的 LLM，稱為外部模型。這些模型應依現況使用。
自訂基礎模型的功能，以最佳化特定應用程式的效能 (通常稱為微調)。請參閱基礎模型微調。

模型登錄

Databricks 提供 Unity 目錄中 MLflow 模型登錄的託管版本。在 Unity 目錄中註冊的模型會繼承集中式存取控制、譜系和跨工作區探索和存取。請參閱在 Unity 目錄中管理模型生命週期。

模型服務

Mosaic AI 模型服務提供整合介面，可用來部署、控管及查詢 AI 模型。您提供的每個模型都可作為 REST API，您可將其整合到網頁或用戶端應用程式中。使用 Mosaic AI 模型服務，您可以部署自己的模型、基礎模型或 Databricks 外部託管的第三方模型。請參閱透過 Azure Databricks 提供的模型服務。

資料倉儲

資料倉儲是指從多個來源收集和儲存資料，以便快速存取商業見解和報告。 Databricks SQL 是一系列服務的集合，可將資料倉儲功能和效能帶入現有的 Data Lake。請參閱什麼是 Azure Databricks 上的資料倉儲？。

Query

查詢是有效的 SQL 陳述式，可讓您與資料互動。您可以使用平台 SQL 編輯器撰寫查詢，或使用 SQL 連接器、驅動程式或 API 進行連線。請參閱存取和管理已儲存的查詢，以深入了解如何使用查詢。

SQL 倉儲

用於執行 SQL 查詢的計算資源。 SQL 倉儲有三種類型：傳統、Pro 和無伺服器。 Azure Databricks 建議在可用時使用無伺服器倉儲。請參閱 SQL 倉儲類型，以比較每個倉儲類型的可用功能。

查詢歷程記錄

已執行的查詢及其效能特性的清單。查詢歷程記錄可讓您監視查詢效能，協助您找出瓶頸並最佳化查詢執行階段。請參閱<查詢歷程記錄>。

視覺效果

執行查詢的結果的圖形化表示。請參閱 Databricks 筆記本中的視覺效果。

儀表板

資料視覺效果和評論的呈現。您可以使用儀表板自動將報表傳送給 Azure Databricks 帳戶中的任何人。使用 Databricks Assistant 來協助您根據自然語言提示來建置視覺效果。請參閱儀表板。您也可以從筆記本建立儀表板。請參閱筆記本中的儀表板。

如需舊版儀表板，請參閱舊版儀表板。

重要

Databricks 建議使用 AI/BI 儀表板 (先前稱為 Lakeview 儀表板)。舊版儀錶板，先前稱為 Databricks SQL 儀錶板，現在稱為 舊版儀錶板。 Databricks 不建議建立新的舊版儀表板。

終止支援時程表：

2025 年 4 月 7 日：舊版儀錶板的官方支援將會結束。只會解決重要的安全性問題和服務中斷問題。
2025 年 11 月 3 日：Databricks 將開始封存過去六個月未存取的舊版儀錶板。已封存的儀錶板將無法再存取，封存過程將會以循環方式進行。正在使用中的儀表板的存取權會保持不變。

Databricks 將在 2025 年 11 月 3 日之後與客戶合作，制定正在使用的舊版儀表板的移轉計劃。
使用移轉工具或 REST API 轉換舊版儀表板。如需使用內建移轉工具的指示，請參閱將舊版儀表板複製到 AI/BI 儀表板。如需使用 REST API 建立和管理儀表板的教學課程，請參閱儀表板教學課程。

共用方式為