共用方式為


Lakehouse 端對端案例:概觀和架構

Microsoft Fabric 是一個適用於企業的多功能分析解決方案,涵蓋包括資料移動到資料科學、即時分析及商業智慧等所有內容。 它提供一套完善的服務,包括資料湖、資料工程和資料整合,全都在同一個位置。 如需詳細資訊,請參閱什麼是 Microsoft Fabric?

本教學課程會逐步引導您完成從資料擷取到資料耗用量的端對端案例。 其可協助您建置對 Fabric 的基本瞭解,包括不同的體驗及其整合方式,以及在此平臺上運作的專業和公民開發人員體驗。 本教學課程的目的不是參考架構、完整的特性和功能清單,或特定最佳做法的建議。

Lakehouse 端對端案例

傳統上,組織已為其交易式和結構化資料分析需求建置現代化資料倉儲。 適用於巨量資料(半/非結構化)資料分析需求的 Data Lakehouse。 這兩個系統會平行執行、建立尋址接收器、資料重複,以及增加總擁有成本。

在 Delta Lake 格式上統一資料存放區和標準化的網狀架構可讓您消除尋址接收器、移除資料重複,並大幅降低總擁有成本。

透過 Fabric 所提供的彈性,您可以實作 Lakehouse 或資料倉儲架構,或將它們結合在一起,以充分利用這兩者與簡單的實作。 在本教學課程中,您將以零售組織為例,並從頭到尾建置其 Lakehouse。 它會使用 銅層具有原始資料的獎章架構 、銀層具有已驗證和重複資料刪除的資料,而金層具有高度精簡的資料。 您可以採取相同的方法,為任何產業的任何組織實作 Lakehouse。

本教學課程說明虛構 Wide World Importers 公司的開發人員如何完成下列步驟:

  1. 登入您的 Power BI 帳戶,並註冊免費的 Microsoft Fabric 試用版。 如果您沒有 Power BI 授權, 請註冊 Power BI 免費授權 ,然後啟動 Fabric 試用版。

  2. 為您的組織建置並實作端對端 Lakehouse:

    • 建立網狀架構工作區
    • 建立 Lakehouse
    • 內嵌資料、轉換資料,並將其載入 Lakehouse。 您也可以探索 OneLake,這是跨 Lakehouse 模式和 SQL 分析端點模式的資料復本。
    • 使用 SQL 分析端點連線到 Lakehouse,並使用 DirectLake 建立 Power BI 報表,以分析不同維度的銷售資料。
    • 您可以選擇性地使用管線來協調和排程資料擷取和轉換流程。
  3. 藉由刪除工作區和其他項目來清除資源

架構

下圖顯示 Lakehouse 端對端架構。 所涉及的元件在下面的清單中描述。

Microsoft Fabric 中 lakehouse 端對端架構的圖表。

  • 資料來源:Fabric 可讓您快速輕鬆地連線到 Azure Data Services,以及其他雲端式平臺和內部部署資料來源,以簡化資料擷取。

  • 擷取:您可以使用超過 200 個原生連接器,為您的組織快速建置見解。 這些連接器會整合到 Fabric 管線中,並使用使用者易記的拖放資料轉換與資料流。 此外,使用 Fabric 中的捷徑功能,您可以連線到現有的資料,而不需要複製或移動它。

  • 轉換和儲存:網狀架構會標準化 Delta Lake 格式。 這表示所有網狀架構引擎都可以存取及操作儲存在 OneLake 中的相同資料集,而不需要複製資料。 此儲存體系統提供彈性,根據組織需求,使用獎牌架構或資料網格來建置 Lakehouse。 您可以針對資料轉換選擇低程式碼或無程式碼體驗,並針對程式碼優先體驗使用管線/資料流或筆記本/Spark。

  • 用:Power BI 可以從 Lakehouse 取用資料以進行報告和視覺效果。 每個 Lakehouse 都有一個名為 SQL 分析端點的內建 TDS 端點,以便從其他報告工具輕鬆連線和查詢 Lakehouse 資料表中的資料。 SQL 分析端點為使用者提供 SQL 連線功能。

範例資料集

本教學課程使用 Wide World Importers (WWI) 範例資料庫 ,您會在下一個教學課程中匯入 Lakehouse。 針對 Lakehouse 端對端案例,我們已產生足夠的資料來探索 Fabric 平臺的規模和效能功能。

Wide World Importers (WWI) 是一家位於舊金山灣區批發新奇商品的進口經銷商。 作為批發商,WWI 的客戶大多包含轉售給個人的公司。 WWI 會銷售給美國各地的零售客戶,包括專賣店、超市、電腦商店、旅遊景點商店,以及一些個人。 WWI 也會透過代表 WWI 促銷產品的代理商網路銷售給其他批發商。 若要深入瞭解其公司配置檔和作業,請參閱 適用於 Microsoft SQL 的 Wide World Importers 範例資料庫。

一般而言,資料會從交易系統或企業營運應用程式帶入 Lakehouse。 不過,為了簡化本教學課程,我們會使用WWI所提供的維度模型作為初始資料來源。 我們使用它作為將資料內嵌到 lakehouse 的來源,並透過獎章架構的不同階段(青銅、銀級和金牌)進行轉換。

資料模型

雖然 WWI 維度模型包含許多 事實資料表,但在本教學課程中,我們會使用 Sale 事實資料表及其相互關聯的維度。 以下範例說明了 WWI 的資料模型:

本教學課程資料模型的銷售事實資料表和相關維度圖表。

資料和轉換流程

如先前所述,我們使用Wide World Importers (WWI) 範例資料的範例資料來建置此端對端 Lakehouse。 在此實作中,範例資料會以 Parquet 檔案格式儲存在所有資料表的 Azure 資料儲存體帳戶中。 不過,在真實世界的案例中,資料通常源自各種來源和各種格式。

下圖顯示來源、目的地和資料轉換:

Microsoft Fabric 中的資料流和轉換方式圖表。

  • 資料來源:源資料的格式為 Parquet 檔案格式和未分割的結構。 它儲存在每個資料表的資料夾中。 在本教學課程中,我們會設定管線,將完整的歷程記錄或一次性資料內嵌至 Lakehouse。

    在本教學課程中,我們會使用 Sales 事實資料表,該資料表具有一個父資料夾,具有 11 個月的歷程記錄資料(每個月有一個子資料夾),另一個資料夾包含三個月的累加資料(每個月一個子資料夾)。 在初始資料擷取期間,11 個月的資料會擷取到 Lakehouse 資料表中。 不過,當累加資料到達時,它會包含 10 月和 11 月的更新資料,以及 12 月和 11 月資料與現有資料合併,而新的 Dec 資料會寫入 Lakehouse 資料表,如下圖所示:

    此圖顯示如何以累加方式合併變更的資料,以累加方式合併到 Lakehouse 中最初內嵌的資料。

  • Lakehouse:在本教學課程中,您會建立 Lakehouse,將資料內嵌至 Lakehouse 的檔案區段,然後在 Lakehouse 的資料表 區段中建立差異湖資料表。

  • 轉換:如需資料準備和轉換,您會看到兩種不同的方法。 我們示範針對偏好程式碼優先體驗的使用者使用 Notebooks/Spark,並針對偏好低程式碼或無程式碼體驗的使用者使用管線/資料流。

  • 用:若要示範資料耗用量,您會看到如何使用Power BI的 DirectLake 功能來建立報表、儀錶板,以及直接從 Lakehouse 查詢資料。 此外,我們示範如何使用 TDS/SQL 分析端點,讓您的資料可供第三方報告工具使用。 此端點可讓您連線到倉儲,並執行 SQL 查詢以進行分析。

後續步驟