Microsoft Purview 中的數據譜系
本文提供 Microsoft Purview 整合式目錄 中的數據譜系概觀。 它也會詳細說明數據系統如何與目錄整合,以擷取數據譜系。 Microsoft Purview 可以擷取組織數據資產不同部分的數據歷程,以及不同層級的準備,包括:
- 從各種平臺暫存的原始數據
- 已轉換和備妥的數據
- 視覺效果平臺使用的數據
使用案例
數據譜系被廣泛理解為跨越數據源的生命週期,以及數據在數據資產中隨著時間移動的位置。 它用於不同類型的回溯案例,例如疑難解答、追蹤數據管線中的根本原因和偵錯。 譜系也用於數據品質分析、合規性和「假設」案例,通常稱為影響分析。 譜系會以可視化方式呈現,以顯示從來源移至目的地的數據,包括數據的轉換方式。 由於大部分企業數據環境的複雜度,這些檢視可能很難瞭解,而不需進行一些周邊數據點的匯總或遮罩。
整合式目錄 中的譜系體驗
整合式目錄 與其他數據處理、記憶體和分析系統連線,以擷取歷程資訊。 這些資訊會結合以代表目錄中一般、案例特定的譜系體驗。
您的數據資產可能包括執行數據擷取、轉換 (ETL/ELT 系統) 、分析和視覺效果系統的系統。 每個系統都會擷取豐富的靜態和操作元數據,以描述系統界限內數據的狀態和品質。 整合式目錄 中譜系的目標是盡可能從每個數據系統擷取移動、轉換和作業元數據。
下列範例是跨多個系統移動數據的典型使用案例,其中 整合式目錄 會連線到每個系統以進行譜系。
- Data Factory 會將數據從內部部署/原始區域複製到雲端中的登陸區域。
- Synapse、Databricks 等數據處理系統會使用筆記本處理數據,並將數據從登陸區域轉換成策展區域。
- 將數據進一步處理到分析模型中,以獲得最佳的查詢效能和匯總。
- 數據視覺效果系統會取用數據集,並透過其中繼模型進行處理,以建立 BI 儀錶板、ML 實驗等等。
譜系數據粒度
下一節涵蓋 Microsoft Purview 所收集譜系資訊之數據粒度的詳細數據。 此數據粒度可能會根據 Microsoft Purview 中支援的數據系統而有所不同。
實體層級譜系:來源 > 進程 > 目標
- 譜系會以圖形表示,通常會包含由計算系統叫用之進程所連接之數據儲存系統中的來源和目標實體。
- 數據系統會連線到 整合式目錄,以產生並報告參考基礎數據系統實體物件的唯一物件,例如:SQL 預存程式、筆記本等等。
- 擷取具有擁有權等其他元數據的高逼真度譜系,以人類可讀取的格式顯示來源 & 目標實體的譜系。 例如:Hive 數據表層級的譜系,而不是數據分割或檔案層級。
數據行或屬性層級譜系
識別用來在目標實體中建立或衍生屬性之來源實體的屬性。 來源屬性的名稱可以在目標中保留或重新命名。 Azure Data Factory (ADF) 等系統可以執行從內部部署環境到雲端的一對一複本。 例如:Table1/ColumnA -> Table2/ColumnA
。
進程執行狀態
為了支援根本原因分析和數據品質案例,我們會擷取數據處理系統中作業的執行狀態。 此需求與取代其他數據處理系統的監視功能無關,目標都不是要取代它們。
摘要
譜系是 整合式目錄 的重要功能,可支持品質、信任和稽核案例。 整合式目錄 的目標是要建置穩固的架構,讓您環境中的所有數據系統都能自然地連線和報告譜系。 一旦元數據可供使用,整合式目錄 可以將數據系統所提供的元數據結合在一起,以支持數據控管使用案例。