Databricks Unity 目錄資料庫的數據品質
若要使用 Unity 目錄,必須針對 Unity 目錄啟用您的 Azure Databricks 工作區,這表示工作區已附加至 Unity 目錄中繼存放區。 所有新的工作區都會在建立時自動為 Unity 目錄啟用,但較舊的工作區可能需要帳戶管理員手動啟用 Unity 目錄。 無論您的工作區是否已自動啟用 Unity 目錄,也需要下列步驟才能開始使用 Unity 目錄:
- 建立目錄和架構,以包含數據表和磁碟區等資料庫物件。
- 建立受控記憶體位置,以將受控數據表和磁碟區儲存在這些目錄和架構中。
- 將目錄、架構和資料庫物件的存取權授與使用者。
自動為 Unity 目錄啟用的工作區會布建具有授與所有工作區使用者廣泛許可權的工作區目錄。 此目錄是試用 Unity 目錄的便利起點。
如需詳細的設定指示, 請參閱設定和管理 Unity 目錄。
掃描 Azure Databricks Unity 目錄時,Microsoft支援:
- 中繼存放區
- 目錄
- Schemas
- 包含數據行的數據表
- 包含數據行的檢視
設定掃描時,您可以選擇掃描整個 Unity 目錄,或將掃描範圍設定為目錄子集。
在 Microsoft Purview 中設定 Databricks Unity 目錄資料目錄的數據對應掃描
- 在 Microsoft Purview 中註冊 Azure Databricks 工作區
- 掃描已註冊的 Azure Databricks 工作區
- 輸入掃描的名稱
- 選取 unity 目錄作為擷取方法
- 透過整合運行時間 (Azure 整合運行時間、受控 VNet IR 或您建立的 Kubernetes 支援的自我裝載整合運行時間連線)
- 在建立認證時選取 [存取令牌驗證]。 如需詳細資訊,請參閱 Microsoft Purview 中的來源驗證認證。
- 指定 Microsoft Purview 將連線並執行掃描的 Databricks SQL Warehouse HTTP 路徑
- 在 [範圍掃描] 頁面中,選取您要掃描的目錄。
- 選取用於分類的掃描規則集。 您可以選擇系統預設值、現有的自訂規則集,或建立內嵌的新規則集。 若要深入瞭解,請參閱分類一文。
- 針對 [掃描觸發程式],選擇要設定排程或執行掃描一次。
- 檢閱您的掃描,然後選取 [儲存並執行]。
- 檢視您的掃描和掃描執行,以完成資料的目錄。
掃描之後,Unity 目錄 (UC) 中的數據資產將可在 Microsoft Purview 整合式目錄 搜尋中使用。 如需如何在 Microsoft Purview 中連線和管理 Azure Databricks Unity 目錄的詳細 資訊,請遵循本檔。
重要事項
- 在建立認證時選取 [存取令牌驗證]。
- 將存取令牌放在託管的 Azure 金鑰保存庫,並將密鑰保存庫連線管理員。
- 請務必提供產品 (服務) MSI 讀取 (密碼) 存取 金鑰保存庫。
設定 Databricks UC 的連線以進行數據質量掃描
此時,我們已備妥掃描的資產,以進行編目和治理。 將掃描的資產關聯至治理網域 Sele 中的數據產品。 在 [數據品質] 索引標籤上,新增 Azure SQL 資料庫連線:手動輸入資料庫名稱。
選取 [數據品質 > 控管網域 > 管理] 索引標籤以建立連線。
在線上頁面中設定連線。
- 新增連線名稱和描述
- 選取來源類型 Azure Databricks
- 選取工作區 URL
- 選取 Unity 目錄作為擷取方法
- 選取 HTTP 路徑
- 選取 unity 目錄名稱
- 選取架構名稱
- 選取數據表名稱
- 選取驗證方法 - 存取令牌
- 新增 Azure 訂用帳戶
- 金鑰保存庫連線
- 秘密名稱
- 秘密版本
測試連線
重要事項
- 數據質量負責人需要 只讀 存取 Azure Databrics Unity 目錄,才能設定數據質量連線。
- 尚未支援 vNet。
Azure Databricks Unity 目錄資料庫中數據的分析和數據質量掃描。
成功完成連線設定之後,您可以分析、建立和套用規則,以及在 Azure Databricks Unity 目錄資料庫中執行數據的 DQ 掃描。 請遵循下列檔中所述的逐步指導方針: