自助式分析和深入解析 (預覽)
自助式分析和深入解析是指可讓商務用戶獨立存取、分析及產生數據見解的數據、工具和平臺。 Microsoft Purview 數據控管應用程式會將元數據的領域模型發佈至 Fabric OneLake 和 AdlsG2 (Azure Data Lake 記憶體) ,讓客戶可以攜帶自己的工具和計算來分析和產生見解。 數據控管元數據的自助式分析對於推動客戶數據資產健康情況管理的持續改進,以及藉由將數據資產深入解析和健康情況管理的存取權大眾化來促進整個組織的數據驅動文化,很有價值。
主要元件
- 數據模型: 具有網域和維度詳細數據的 3NF 模型
-
元數據: 包含下列項目的數據控管元資料:
- 治理網域
- 數據產品
- 數據資產
- 詞彙
- 訂用帳戶要求
- 數據質量規則
- 尺寸
- 數據質量事實 (通過和失敗計數)
優點
- 授權: 可讓數據從業人員、數據產品擁有者、數據管理者和分析師探索數據控管元數據,並鏈接來自各種來源的元數據以衍生見解。
- 彈性和效率: 除了健康情況管理中的現成報表之外,客戶還能夠建立自定義報告。
- 敏捷: 可讓客戶組織更迅速地回應健康情況管理問題和補救。
- 符合成本效益: 減少設定平臺和建置工具的需求。 所有數據都可在 OneLake 中使用,而客戶可以在 OneLake 中使用可用的工具 (網狀架構語意模型、PBI 報告、數據流和筆記本) 。
目前可用的報表 (現成可用的)
以下是現成可用的報表。 這些報表無法自定義。
- 傳統資產 - 依類型和集合的資產概觀,以及其策劃狀態。
- 傳統目錄採用 - 一目了然地瞭解如何使用 整合式目錄。 您的詞彙,提供詞彙及其狀態的快照集。
- 傳統分類 - 分類資產和分類類型的概觀。
- 傳統數據管理 - 分類資產和分類類型的概觀。
- 傳統詞彙 - 詞彙的健康情況和用法。
- 傳統敏感度標籤 - 套用敏感度標籤的資產概觀,以及套用的標籤。
- 數據控管 - 數據 控管健康情況報告可讓您的小組一目了然地追蹤您的健康情況進度,並識別需要更多工作的區域。
- 數據品質健康 情況 - 資料品質維度和數據質量規則效能報告。
自助式分析元數據的數據模型
3NF 領域模型是關係資料庫設計中正規化程式的一部分,可確保資料庫沒有備援和更新異常。 如果資料庫架構符合第一個和第二個 Normal Forms 的需求,而且其所有屬性在功能上只相依於主鍵,則該架構會處於第三個標準表單中。 3NF 領域模型的用途是用來以最小化重複並確保數據完整性的方式來結構化數據。 其著重於將數據分解成較小的相關數據表,其中每一項資訊只會儲存一次。
特性:
- 消除可轉移的相依性:非索引鍵屬性不應相依於其他非索引鍵屬性。
- 邏輯群組:數據會根據其函式或意義,以邏輯方式分組至網域。
- Entity-Relationship 圖表 (ERD) :常用來代表 3NF 領域模型,顯示實體彼此之間的關聯性。
表格名稱 | 描述 | 關聯性索引鍵 |
---|---|---|
存取原則布建狀態 | 布建狀態的相關信息會儲存在此數據表中。 | ProvisioningStateId |
存取原則資源類型 | 存取 Porlich 資源資訊會儲存在此資料表中。 | ResourceTypeId |
存取原則集 | 存取原則、原則使用案例詳細數據,以及原則套用位置等的整體資訊會儲存在此數據表中。 | AccessPolicySetId (UniqueId) 、ResourceTypeId (FK) 、ProvisioningStateId (FK) |
商務網域 | 商務網域數據表中會發佈商務功能變數名稱、描述、狀態和擁有權詳細數據 | 父企業網域標識碼 (FK) 、由使用者標識碼 (FK) 建立、上次由使用者識別碼修改 (FK) |
分類 | 數據資產分類資訊會儲存在此數據表中。 | ClassificationId |
自定義存取使用案例 | 存取使用案例資訊會儲存在此數據表中。 | AccessPolicySetId |
數據資產 | 數據資產名稱、描述和來源資訊會儲存在此數據表中。 | DataAssetId (UniqueId) 、DataAssetTypeId (FK) 、CreatedByUserId (FK) 、LastModifiedByUserId (FK) |
數據資產數據行 | 數據資產數據行名稱、數據行描述和參考會儲存在此數據表中。 | DataAssetId (FK) 、ColumnId (Unique) 、DataAssetTypeId (FK) 、DataTypeId (FK) 、由使用者識別符 (FK) 建立、上次由使用者標識符修改 (FK) |
數據資產數據行分類指派 | 數據分類指派相關的參考索引鍵會儲存在此數據表中。 | DataAssetId (FK) 、ColumnId (FK) 、ClassificationId (FK) |
數據資產網域指派 | 此表格提供數據資產控管網域指派的相關信息。 | DataAssetId (FK) 、BusinessDomainId (FK) 、AssignedByUserId (FK) |
數據資產擁有者 | 儲存在此數據表中的數據資產擁有者資訊。 | DataAssetOwnerId |
數據資產擁有者指派 | 數據資產擁有者指派資訊會儲存在此數據表中。 | DataAssetId、DataAssetOwnerId |
數據資產類型數據類型 | 數據資產類型資訊會儲存在此數據表中。 | DataTypeId (UniqueId) 、DataAssetTypeId (FK) |
數據產品 | 儲存在此數據表中的數據產品名稱、描述、使用案例、狀態和其他相關信息。 | DataProductId (UniqueId) 、DataProductTypeId (FK) 、DataProductStatusId (FK) 、UpdateFrequencyId (FK) 、CreatedByUserId (FK) 、LastUpdatedByUserId (FK) |
數據產品資產指派 | 數據產品和數據資產指派資訊會儲存在此數據表中。 | DataProductId、DataAssetId |
數據產品商務網域指派 | 數據產品和控管網域指派資訊會儲存在此數據表中。 | DataProductId (FK) 、BusinessDomainId (FK) 、AssignedByUserId (FK) |
數據產品檔 | 數據產品文件參考資訊會儲存在此數據表中。 | DataProductId、DocumentationId |
數據產品擁有者 | 數據產品擁有者資訊會儲存在此數據表中。 | DataProductId、DataProductOwnerId |
數據產品狀態 | 數據產品狀態 (如已發行或草稿) 儲存在此數據表中的相關信息。 | DataProductStatusId |
數據產品使用規定 | 數據產品使用量詞彙資訊會儲存在此數據表中。 | DataProductId、TermOfUsedId、DataAssetId |
數據產品類型 | 數據產品類型的相關信息 - Master、Reference、Operational 等都會儲存在此數據表中。 | DataProductTypeId |
數據產品更新頻率 | 這個數據產品數據更新頻率的相關信息會儲存在此數據表中。 | UpdateFrequencyId |
數據品質資產規則執行 | 儲存在此數據表中的數據質量掃描結果 | RuleId (FK) 、DataAssetId (FK) 、JobExecutionId (FK) |
數據品質作業執行 | 數據品質作業執行狀態會儲存在此數據表中。 | JobExecutionId (UniqueId) |
數據質量規則 | 數據品質規則的相關信息會儲存在此數據表中。 | RuleId (UniqueId) 、RuleTypeId (FK) 、BusinessDomainId (FK) 、DataProductId (FK) 、 DataAssetId (FK) 、JobTypeDisplayName (FK) 、RuleOriginDisplayName (FK) 、RuleTargetObjectType (FK) 、CreatedByUserId (FK) 、LastUpdatedByUserId (FK) |
數據品質規則數據行執行 | 數據品質規則通過和失敗計數、數據行層級中的數據品質分數,以及包含數據品質作業執行詳細數據的相關信息會儲存在此數據表中。 | RuleId (FK) 、DataAssetId (FK) 、ColumnId (FK) 、JobExecutionId (FK) |
數據品質規則類型 | 數據品質規則類型和相關維度會儲存在此數據表中。 | RuleTypeId (UniqueId) 、DimensionDisplayName (FK) |
數據訂閱要求 | 數據訂閱者、套用的原則、訂用帳戶要求狀態,以及儲存在此數據表中的其他相關信息的相關信息。 | SubscriberRequestId (UniqueId) 、SubscriberIdentityTypeDisplayName (FK) 、RequestorIdentityTypeDisplayName (FK) 、RequestorStatusDisplayName (FK) |
詞彙 | 字彙字詞、描述和詞彙整體狀態的相關信息會儲存在此數據表中。 | GlossaryTermId (UniqueId) 、ParentGlossaryTermId (FK) 、CreatedByUserId (FK) 、LastModifiedByUserId (FK) |
詞彙商務網域指派 | 字彙字詞控管網域指派和狀態的相關信息會儲存在此表格中。 | GlossaryTermId (FK) 、BusinessDomainId (FK) 、AssignedByUserId (FK) 、GlossaryTermStatusId (FK) 、CreatedByUserId (FK) 、LastUpdatedByUserId (FK) |
詞彙數據產品指派 | 字彙字詞數據產品指派的相關信息會儲存在此數據表中。 | GlossaryTermId (FK) 、DataProductId (FK) 、AssignedByUserId (FK) 、GlossaryTermStatusId (FK) 、CreatedByUserId (FK) 、LastUpdatedByUserId (FK) |
原則集合核准者 | 原則集和核准者資訊會儲存在此數據表中。 | SubscriberRequestId (FK) 、AccessPolicySetId (FK) 、ApproverUserId (FK) |
關聯 | 來源類型和目標資訊的相關信息會儲存在此數據表中。 | AccountId、SourceId、TargetId |
訂閱 Microsoft Purview 目錄元數據至 Fabric OneLake
您可以遵循下列步驟,訂閱 Microsoft Purview 的數據控管元數據以進行分析並衍生見解:
從左窗格中選取 [設定],選取 [整合式目錄],然後選取 [解決方案整合]。
選取 [編輯]。
新增 記憶體類型 並 啟用 安裝程式。
新增 位置 URL (範例:
https://onelake.dfs.fabric.microsoft.com/workspace name/lakehouse name/Files/purviewmetadata
)- 選 取要 複製 URL 的 [屬性]。
- 從 [ 屬性 ] 頁面複製 URL。
在 URL 結尾新增資料夾名稱 - 範例:/DEH (查看螢幕快照)
將 Microsoft Purview 管理服務識別 (MSI) 的參與者存取權授與網狀架構工作區。
測試連線。
選 取 [儲存 ] 以儲存組態,以將 Purview 元數據發佈至您的 OneLake 工作區。
在 OneLake 中建立語意模型
數據和分析內容中的語意模型是指數據的結構化表示法,定義特定定義域內的意義、關聯性和規則。 它提供一層抽象概念,可讓使用者更直覺且更容易存取,協助使用者瞭解複雜數據並與之互動,特別是在商業智慧 (BI) 和分析平臺的內容中。 在建置任何報表之前,一律需要語意模型。 在倉儲內,使用者可以將倉儲物件 - 數據表或檢視新增至其預設 Power BI 語意模型。 它們也可以新增其他語意模型屬性,例如階層和描述。 然後,這些屬性會用來建立Power BI語意模型的數據表。 使用者也可以從預設 Power BI 語意模型中移除物件。
若要從 Microsoft Purview 數據控管元數據領域模型建立語意模型:
在您的 Fabric 工作區中開啟 Lakehouse。
將網域模型檔案發佈至差異數據表
- 選取省略號按鈕 (...)
- 選取 [載入數據表 > ] [新增資料表]
- 預先填入的新數據表名稱
- 選 取檔案類型 parquet
您也可以使用 快捷方式 從 OneLake 和 OneLake 中快捷方式建立領域模型
- 選取數據表的省略號按鈕 (...)
- 選 取 [新增快捷方式], 然後從 [新增快捷方式來源] 頁面選 取 [Microsoft OneLake ]。
- 選取要快捷方式的網域模型數據表
手動或透過快捷方式將所有檔案發佈至差異數據表之後,您就可以將差異數據表新增至語意模型。
- 從 Lakehouse 頁面切換至 SQL 分析端點頁面。
- 從 [SQL 分析端點] 頁面的左上角選取 [報告]。
- 選 取 [管理預設語意模型]。
- 從 dbo > 數據表中選取要新增至語意模型以進行報告的數據表。
若要將數據表或檢視等物件新增至預設的 Power BI 語意模型,請選取 [自動更新語意模型]。
注意事項
您必須使用關聯性索引鍵手動繪製語意模型關聯性。
訂閱 Microsoft Purview 目錄元數據至 AdlsG2 記憶體
您可以訂閱 Microsoft Purview 的數據控管元數據,以發佈和儲存在 AdlsG2 記憶體中進行分析,並遵循下列步驟來衍生見解:
從左窗格中選取 [設定],選取 [整合式目錄],然後選取 [解決方案整合]。
選取 [編輯]。
選取 [記憶體類型]。 和 已啟用 安裝程式。
新增 位置 URL,這必須是 AdlsG2 路徑 + “/ (容器名稱) ”
- 移至 portal.azure.com
- 選取 adlsg2 storage (Home > adlsg2)
- 移至 [設定>端點] ,然後選取 Data Lake 記憶體的主要端點。
將 記憶體 Blob 數據參與者 存取權授與 Microsoft Purview 管理服務識別 (MSI) 至您的 AdlsG2 容器
測試連線。
選取 [儲存] 索引標籤以儲存組態,以將網域模型發佈至 adlsg2 記憶體。
檢閱已發佈的模型和數據
開啟 portal.azure.com
選取您的 adlsg2 記憶體
選取您在 purview 中使用 adlsg2 端點新增的容器
流覽容器中發佈的差異 Parquet 檔案清單。
流覽已發佈的模型和元數據 (查看下列) 影像。
建立 Power BI 報表
Power BI 會以原生方式整合到整個 Fabric 體驗中。 此原生整合包含稱為 DirectLake 的唯一模式,可從 Lakehouse 存取數據,以提供最高效能的查詢和報告體驗。 DirectLake 是一項突破性的新功能,可讓您分析 Power BI 中非常大型的語意模型。 使用 DirectLake,您可以直接從數據湖載入 parquet 格式的檔案,而不需要查詢數據倉儲或 Lakehouse 端點,也不需要將數據匯入或複製到 Power BI 語意模型。 DirectLake 是將數據從 Data Lake 直接載入 Power BI 引擎的快速路徑,可供分析。
在傳統的 DirectQuery 模式中,Power BI 引擎會直接從來源查詢每個查詢執行的數據,而查詢效能則取決於數據擷取速度。 DirectQuery 不需要複製數據,確保來源中的任何變更都會立即反映在查詢結果中。
如需詳細資訊 ,請遵循指導方針:如何在 Microsoft Fabric 中建立 Power BI 報表。
重要事項
- 默認重新整理週期為每 24 小時一次。
- 如果您訂閱 Microsoft Purview 元數據以發佈到您的網狀架構工作區,Purview MSI 需要有 Fabric 工作區的參與者存取權。
- 如果您要將 purview 元數據子系化以發佈至 adlsg2 容器,Purview MSI 需要存取您 Azure Data Lake Storage Gen2 的記憶體 Blob 數據參與者。
注意事項
- 尚不支援排程數據重新整理作業。
- 尚未支援 vNet。