共用方式為


教學課程:設定適用於 Fabric 資料倉儲的 dbt

適用於✅:Microsoft Fabric 的倉儲

本教學課程會引導您設定 dbt,並將第一個專案部署到 Fabric Warehouse。

簡介

dbt (資料建置工具) 開放原始碼架構可簡化資料轉換和分析工程。 其著重於分析層內的 SQL 型轉換,將 SQL 視為程式碼。 dbt 支援版本控制、模組化、測試和文件。

Microsoft Fabric 的 dbt 配接器可用來建立 dbt 專案,然後部署至網狀架構數據倉儲。

您也可以變更配接器來變更 dbt 項目的目標平臺,例如:針對 Azure Synapse 專用 SQL 集區 建置的專案,可以在幾秒鐘內升級至 網狀架構數據倉儲

適用於 Microsoft Fabric 的 dbt 配接器的必要條件

請遵循此清單來安裝和設定 dbt 必要條件:

  1. Python 3.7 版 )(或更高版本)

  2. Microsoft ODBC Driver for SQL Server

  3. 使用 pip install dbt-fabric 從 PyPI (Python 套件索引) 存放庫取得最新版的 dbt-fabric 配接器。

    pip install dbt-fabric
    

    注意

    藉由將 pip install dbt-fabric 病更為 pip install dbt-synapse 並使用下列指示,您就可以安裝適用於 Synapse 專用 SQL 集區的 dbt 配接器

  4. 請務必驗證是否已使用 pip list 命令安裝 dbt-fabric 及其相依性:

    pip list
    

    此命令應傳回套件和目前版本的完整清單。

  5. 如果您還沒有倉儲,請建立倉儲。 您可以使用此練習的試用容量:註冊 Microsoft Fabric 免費試用建立工作區,然後建立倉儲

開始使用 dbt-fabric 配接器

本教學課程使用 Visual Studio Code,不過您可以使用自選的慣用工具。

  1. jaffle_shop demo dbt project 複製到您的電腦上。

    git clone https://github.com/dbt-labs/jaffle_shop.git
    
  2. 在 Visual Studio Code 中開啟 jaffle_shop 專案資料夾。

    Visual Studio Code 的螢幕擷取畫面,顯示開啟的專案。

  3. 如果您已建立倉儲,則可以略過註冊。

  4. 建立 profiles.yml 檔案。 將下列組態新增至 profiles.yml。 此檔案會使用 dbt-fabric 配接器,在 Microsoft Fabric 中設定倉儲的連線。

    config:
      partial_parse: true
    jaffle_shop:
      target: fabric-dev
      outputs:    
        fabric-dev:
          authentication: CLI
          database: <put the database name here>
          driver: ODBC Driver 18 for SQL Server
          host: <enter your SQL analytics endpoint here>
          schema: dbo
          threads: 4
          type: fabric
    

    注意

    視需要將 typefabric 變更為 synapse,將資料庫配接器切換至 Azure Synapse Analytics。 變更資料庫配接器,即可更新任何現有的 dbt 專案的資料平台。 如需詳細資訊,請參閱 dbt 支援的資料平台清單

  5. 在 Visual Studio Code 終端機中,向 Azure 驗證您自己。

  6. 現在您可以測試連線性了。 若要測試倉儲的連線性,請在 Visual Studio Code 終端機中執行 dbt debug

    dbt debug
    

    Visual Studio Code 的螢幕擷取畫面,其中顯示 dbt 偵錯命令。

    所有檢查都會通過,這表示您可以使用 dbt-fabric 配接器從 jaffle_shop dbt 專案連線您的倉儲。

  7. 現在,是時候測試配接器是否正常運作了。 第一次執行 dbt seed,以將範例資料插入倉儲。

    Visual Studio Code 的螢幕擷取畫面,其中顯示 dbt seed 命令。

  8. 執行 dbt run 以針對某些測試驗證資料。

    dbt run
    

    Visual Studio 程式碼的螢幕擷取畫面,顯示 dbt run 命令。

  9. 執行 dbt test,以執行示範 dbt 專案中定義的模型。

    dbt test
    

    Visual Studio Code 的螢幕擷取畫面,其中顯示 dbt test 命令。

您現在已將 dbt 專案部署至網狀架構數據倉儲。

在不同的倉儲間移動

在不同的倉儲間移動 dbt 專案很簡單。 您可以使用這三個步驟流程,快速移轉任何支援的倉儲上的 dbt 專案:

  1. 安裝新的配接器。 如需詳細資訊和完整安裝指示,請參閱 dbt 配接器

  2. 更新 profiles.yml 檔案中的 type 屬性。

  3. 組建專案。

Fabric Data Factory 中的 dbt

與 Apache Airflow (一種熱門的工作流程管理系統) 整合時,dbt 會成為功能強大的工具,可協調資料轉換。 Airflow 的排程和工作管理功能可讓資料團隊自動執行 dbt。 其可確保一般資料更新,並維護一致的高品質資料流程,以進行分析和報告。 這種結合方法,搭配使用了 dbt 的轉換專長及 Airflow 的工作流程管理,可提供有效率且強固的資料管線,最終實現更快速且更深入的資料驅動型決策。

Apache Airflow 是開放原始碼平台,可用來以程序設計方式建立、排程及監視複雜的資料工作流程。 它可讓您定義一組稱為運算子的工作,這些運算子可以合併成有向非循環圖 (DAG) 代表資料管道。

如需有關利用倉儲運作 dbt 的詳細資訊,請參閱在 Microsoft Fabric 中搭配使用 dbt 和 Data Factory 來轉換資料

考量

使用 dbt-fabric 配接器時,需要考慮的重要事項:

後續步驟