探索分析資料處理

已完成

分析資料處理通常會使用唯讀 (或「主」讀) 系統,來儲存大量歷程記錄資料或商務計量。 分析可以根據指定時間點的資料快照集,或一系列的快照集。

分析處理系統的特定詳細資料可能會因解決方案而異,但企業級分析的常見架構如下所示:

顯示包含下列所述編號元素的分析資料庫架構的圖表。

  1. 操作資料會擷取、轉換和載入 (ETL) 到資料湖進行分析。
  2. 資料會載入資料表的結構描述中,通常是在 Spark 型資料湖存放庫 (具有資料湖中檔案的表格式抽象概念) 或是具有完全關聯式 SQL 引擎的資料倉儲
  3. 資料倉儲中的資料可能會彙總並載入到線上分析處理 (OLAP) 模型或 Cube。 從事實資料表彙總的數值 (「量值」),會針對維度資料表中「維度」的交集來計算。 例如,銷售營收可能會依日期、客戶和產品來總計。
  4. 您可以查詢資料湖、資料倉儲和分析模型中的資料,以產生報表、視覺效果及儀表板。

「資料湖」在大規模資料分析處理案例中很常見,這些案例必須收集和分析大量檔案型資料。

資料倉儲是將資料儲存在針對讀取作業最佳化的關聯式結構描述中的受信任方式;這些讀取作業主要是用來支援報告和資料視覺效果的查詢。 資料湖存放庫是一項較最近的創新工具,其結合資料湖彈性且可調整的儲存空間,以及資料倉儲的關係查詢語意。 資料表結構描述可能需要對 OLTP 資料來源中的資料進行一些反標準化 (引進一些重複項目來讓查詢執行得更快)。

OLAP 模型是一種資料儲存體彙總類型,其會針對分析工作負載進行最佳化。 資料彙總會在不同層級橫跨維度進行,可讓您「向上/向下切入」以檢視多個階層層級的彙總;例如,依區域、依城市或針對個別地址尋找總銷售額。 由於 OLAP 資料會預先彙總,因此,可快速執行要傳回其包含之摘要的查詢。

不同類型的使用者可能會在整體架構的不同階段執行資料分析工作。 例如:

  • 資料科學家可以直接在資料湖中,使用資料檔案來探索和模型化資料。
  • 資料分析師可能會直接在資料倉儲中查詢資料表,以產生複雜的報表和視覺效果。
  • 企業使用者可能會以報表或儀表板的形式,來取用分析模型中預先彙總的資料。