了解資料倉儲基本概念

已完成

建置新式資料倉儲的流程通常包括下列各項:

  • 資料擷取 - 將資料從來源系統移至資料倉儲。
  • 資料儲存空間 - 以針對分析最佳化的格式儲存資料。
  • 資料處理 - 將資料轉換成可供分析工具取用的格式。
  • 資料分析和傳遞 - 分析資料以取得深入解析,並將這些深入解析傳遞給企業。

Microsoft Fabric 可讓資料工程師和分析師使用同時具備低程式碼和傳統體驗的單一工具,內嵌、儲存、轉換及視覺化資料。

瞭解 Fabric 的資料倉儲體驗

Fabric 資料倉儲是關係型資料倉儲,可支援企業資料倉儲所需的完整交易式 T-SQL 功能。 其是完全受控、可調整且高可用性的資料倉儲,可用來在湖存放庫中儲存和查詢資料。 透過資料倉儲,您可以完全控制使用 Fabric 入口網站或 T-SQL 命令建立資料表、載入、轉換和查詢資料的過程。 您可以使用 SQL 來查詢和分析資料,或使用 Spark 來處理資料並建立機器學習模型。

Fabric 中的資料倉儲可協助資料工程師和資料分析師之間的協作,進而以相同的體驗共同作業。 資料工程師會在湖存放庫中的資料之上建置關係層,分析師可以在該層級使用 T-SQL 和 Power BI 來探索資料。

設計資料倉儲

與所有關聯性資料庫相同,Fabric 的資料倉儲包含資料表,可供您在稍後儲存資料以供分析之用。 一般來說,這些資料表會以針對多維度模型而最佳化的結構描述進行整理。 在這種方法中,與事件相關的數值資料 (如銷售訂單) 會依不同的屬性分組 (如日期、客戶、商店)。 例如,您可以分析針對在特定日期或特定商店下單的銷售訂單所支付的總金額。

資料倉儲中的資料表

資料倉儲內資料表的組織方式,通常設計為適合對大量資料進行有高效且有效分析的結構。 此組織方式通常稱為維度模型化,其中牽涉到將資料表結構化成事實資料表和維度資料表。

事實資料表包含您想要分析的數值資料。 事實資料表通常會有大量的資料列,而且是用於分析的主要資料來源。 例如,事實資料表可能包含在特定日期或特定商店內針對銷售訂單所支付的總金額。

維度資料表包含事實資料表中資料的描述性資訊。 維度資料表通常有少量的資料列,可用來提供事實資料表中資料的內容。 例如,維度資料表可能包含下達銷售訂單的客戶相關資訊。

除了屬性資料行之外,維度資料表還包含唯一索引鍵資料行,可唯一識別資料表中的每個資料列。 事實上,維度資料表通常包含「兩個」索引鍵資料行:

  • 代理索引鍵是維度資料表中每個資料列的唯一識別碼。 系統將新的資料列插入資料表時,其通常是資料庫管理系統自動產生的整數值。
  • 替代索引鍵 通常是「自然」或「商務」索引鍵,可識別交易來源系統中實體的特定執行個體,例如產品代碼或客戶識別碼。

因為資料倉儲中的代理和替代索引鍵有不同的用途,所以您會需要這兩個項目。 代理索引鍵是資料倉儲特定的索引鍵,可協助維護資料的一致性和正確性。 另一方面,替代索引鍵是來源系統特定的索引鍵,可協助維護資料倉儲與來源系統之間的可追蹤性。

特殊類型的維度資料表

特殊類型的維度會提供額外的內容,並能夠讓您進行更全面的資料分析。

時間維度會提供事件發生期間的相關資訊。 此資料表可讓資料分析師透過時態性間隔彙總資料。 例如,時間維度可能包含銷售訂單的下單年份、季、月和日資料行。

緩時變維度是追蹤一段時間維度屬性變更的維度資料表,例如客戶地址或產品價格的變更。 因為這可讓使用者分析及瞭解一段時間內資料的變更,所以在資料倉儲中十分重要。 緩時變維度可確保資料保持在最新且準確的狀態,這在制定良好的商務決策時十分重要。

資料倉儲結構描述設計

在商務應用程式中所使用的大多數交易資料庫中,會將資料「正規化」以減少重複。 不過,在資料倉儲中,通常會將維度資料「取消正規化」,以減少查詢資料所需的聯結數目。

通常會將資料倉儲組織成「星型」結構描述,其中事實資料表會與維度資料表直接相關,如下列範例所示:

星型結構描述設計的圖表,其中顯示構成星形且具有五個維度的 FactSales 資料表。

您可以使用某個項目的屬性,將事實資料表中不同層級的數位分組在一起。 例如,您可以尋找整個區域的總銷售收入,或只針對單一客戶尋找。 每個層級的資訊都可以儲存在相同的維度資料表中。

提示

如需設計 Fabric 星型結構描述的詳細資訊,請參閱 什麼是星型結構描述?

如果有許多層級或部分資訊是由不同的項目共用,則改用雪花式結構描述可能會十分合理。 以下是範例:

顯示多個維度的雪花式結構描述設計圖表。

在此情況下,DimProduct 資料表已遭到分割 (標準化),進而為產品類別和供應商建立個別的維度資料表。

  • DimProduct 資料表中的每個資料列都包含 DimCategoryDimSupplier 資料表中對應資料列的索引鍵值。

已新增 DimGeography 資料表,其中包含客戶和商店所在位置的相關資訊。

  • DimCustomerDimStore 資料表中的每個資料列都包含 DimGeography 資料表中對應資料列的索引鍵值。