教學課程:設定適用於 Fabric 資料倉儲的 dbt
適用於✅:Microsoft Fabric 的倉儲
本教學課程會引導您設定 dbt,並將第一個專案部署到 Fabric Warehouse。
簡介
dbt (資料建置工具) 開放原始碼架構可簡化資料轉換和分析工程。 其著重於分析層內的 SQL 型轉換,將 SQL 視為程式碼。 dbt 支援版本控制、模組化、測試和文件。
Microsoft Fabric 的 dbt 配接器可用來建立 dbt 專案,然後部署至網狀架構數據倉儲。
您也可以變更配接器來變更 dbt 項目的目標平臺,例如:針對 Azure Synapse 專用 SQL 集區 建置的專案,可以在幾秒鐘內升級至 網狀架構數據倉儲。
適用於 Microsoft Fabric 的 dbt 配接器的必要條件
請遵循此清單來安裝和設定 dbt 必要條件:
使用
pip install dbt-fabric
從 PyPI (Python 套件索引) 存放庫取得最新版的 dbt-fabric 配接器。pip install dbt-fabric
注意
藉由將
pip install dbt-fabric
病更為pip install dbt-synapse
並使用下列指示,您就可以安裝適用於 Synapse 專用 SQL 集區的 dbt 配接器。請務必驗證是否已使用
pip list
命令安裝 dbt-fabric 及其相依性:pip list
此命令應傳回套件和目前版本的完整清單。
如果您還沒有倉儲,請建立倉儲。 您可以使用此練習的試用容量:註冊 Microsoft Fabric 免費試用,建立工作區,然後建立倉儲。
開始使用 dbt-fabric 配接器
本教學課程使用 Visual Studio Code,不過您可以使用自選的慣用工具。
將 jaffle_shop demo dbt project 複製到您的電腦上。
- 您可以使用 Visual Studio Code 的內建原始檔控制來複製存放庫。
- 或者,例如,您可以
git clone
使用命令:
git clone https://github.com/dbt-labs/jaffle_shop.git
在 Visual Studio Code 中開啟
jaffle_shop
專案資料夾。如果您已建立倉儲,則可以略過註冊。
建立
profiles.yml
檔案。 將下列組態新增至profiles.yml
。 此檔案會使用 dbt-fabric 配接器,在 Microsoft Fabric 中設定倉儲的連線。config: partial_parse: true jaffle_shop: target: fabric-dev outputs: fabric-dev: authentication: CLI database: <put the database name here> driver: ODBC Driver 18 for SQL Server host: <enter your SQL analytics endpoint here> schema: dbo threads: 4 type: fabric
注意
視需要將
type
從fabric
變更為synapse
,將資料庫配接器切換至 Azure Synapse Analytics。 變更資料庫配接器,即可更新任何現有的 dbt 專案的資料平台。 如需詳細資訊,請參閱 dbt 支援的資料平台清單。在 Visual Studio Code 終端機中,向 Azure 驗證您自己。
- 如果您使用 Azure CLI 驗證,請在 Visual Studio Code 終端機中執行
az login
。 - 如需 Microsoft Fabric 中的服務主體或其他 Microsoft Entra ID (先前稱為 Azure Active Directory) 驗證,請參閱 dbt (資料建置工具) 設定和 dbt 資源設定。 如需詳細資訊,請參閱 Microsoft Fabric 中作為 SQL 驗證替代方案的 Microsoft Entra 驗證。
- 如果您使用 Azure CLI 驗證,請在 Visual Studio Code 終端機中執行
現在您可以測試連線性了。 若要測試倉儲的連線性,請在 Visual Studio Code 終端機中執行
dbt debug
。dbt debug
所有檢查都會通過,這表示您可以使用 dbt-fabric 配接器從
jaffle_shop
dbt 專案連線您的倉儲。現在,是時候測試配接器是否正常運作了。 第一次執行
dbt seed
,以將範例資料插入倉儲。執行
dbt run
以針對某些測試驗證資料。dbt run
執行
dbt test
,以執行示範 dbt 專案中定義的模型。dbt test
您現在已將 dbt 專案部署至網狀架構數據倉儲。
在不同的倉儲間移動
在不同的倉儲間移動 dbt 專案很簡單。 您可以使用這三個步驟流程,快速移轉任何支援的倉儲上的 dbt 專案:
安裝新的配接器。 如需詳細資訊和完整安裝指示,請參閱 dbt 配接器。
更新
profiles.yml
檔案中的type
屬性。組建專案。
Fabric Data Factory 中的 dbt
與 Apache Airflow (一種熱門的工作流程管理系統) 整合時,dbt 會成為功能強大的工具,可協調資料轉換。 Airflow 的排程和工作管理功能可讓資料團隊自動執行 dbt。 其可確保一般資料更新,並維護一致的高品質資料流程,以進行分析和報告。 這種結合方法,搭配使用了 dbt 的轉換專長及 Airflow 的工作流程管理,可提供有效率且強固的資料管線,最終實現更快速且更深入的資料驅動型決策。
Apache Airflow 是開放原始碼平台,可用來以程序設計方式建立、排程及監視複雜的資料工作流程。 它可讓您定義一組稱為運算子的工作,這些運算子可以合併成有向非循環圖 (DAG) 代表資料管道。
如需有關利用倉儲運作 dbt 的詳細資訊,請參閱在 Microsoft Fabric 中搭配使用 dbt 和 Data Factory 來轉換資料。
考量
使用 dbt-fabric 配接器時,需要考慮的重要事項:
Fabric 支援 Microsoft Entra ID (前身為 Azure Active Directory) 驗證使用者主體、使用者身分識別和服務本體。 在倉儲上以互動方式運作的建議驗證模式是 CLI (命令列介面),並使用服務主體進行自動化。
dbt-fabric 配接器使用
Create Table as Select
(CTAS)、DROP
和CREATE
命令支援某些 T-SQL 命令,例如ALTER TABLE ADD/ALTER/DROP COLUMN
、MERGE
、TRUNCATE
、sp_rename
。檢閱不支援的資料類型,以了解支援和不支援的數據類型。
您可以造訪問題 · microsoft/dbt-fabric · GitHub,在 GitHub 上記錄 dbt-fabric 的問題。