다음을 통해 공유


databricks Unity 카탈로그 데이터베이스에 대한 데이터 품질

Unity 카탈로그를 사용하려면 Unity Catalog에 대해 Azure Databricks 작업 영역을 사용하도록 설정해야 합니다. 즉, 작업 영역이 Unity Catalog 메타스토어에 연결됩니다. 모든 새 작업 영역은 만들 때 자동으로 Unity 카탈로그에 대해 사용하도록 설정되지만 이전 작업 영역에서는 계정 관리자가 Unity Catalog를 수동으로 사용하도록 설정해야 할 수 있습니다. Unity 카탈로그에 대해 작업 영역을 자동으로 사용하도록 설정했는지 여부에 관계없이 Unity Catalog를 시작하려면 다음 단계도 필요합니다.

  • 테이블 및 볼륨과 같은 데이터베이스 개체를 포함하는 카탈로그 및 스키마를 만듭니다.
  • 관리되는 스토리지 위치를 만들어 관리되는 테이블과 볼륨을 이러한 카탈로그 및 스키마에 저장합니다.
  • 카탈로그, 스키마 및 데이터베이스 개체에 대한 사용자 액세스 권한을 부여합니다.

Unity 카탈로그에 대해 자동으로 사용하도록 설정된 작업 영역은 모든 작업 영역 사용자에게 부여된 광범위한 권한으로 작업 영역 카탈로그를 프로비전합니다. 이 카탈로그는 Unity 카탈로그를 사용해 보기에 편리한 시작점입니다.

자세한 설정 지침은 Unity 카탈로그 설정 및 관리를 참조하세요.

Azure Databricks Unity 카탈로그를 검사할 때 Microsoft Purview는 다음을 지원합니다.

  • 메타스토어
  • 카탈로그
  • 스키마
  • 열을 포함한 테이블
  • 열을 포함한 뷰

검사를 설정할 때 전체 Unity 카탈로그를 검사하도록 선택하거나 카탈로그 하위 집합에 검사를 scope 수 있습니다.

Microsoft Purview에서 Databricks Unity 카탈로그 데이터를 카탈로그로 데이터 맵 검사 구성

  • Microsoft Purview에서 Azure Databricks 작업 영역 등록
  • 등록된 Azure Databricks 작업 영역 검사
    • 검사 이름 입력
    • 추출 방법으로 Unity 카탈로그 선택
    • 통합 런타임을 통해 연결(Azure 통합 런타임, 관리형 VNet IR 또는 사용자가 만든 Kubernetes 지원 자체 호스팅 통합 런타임)
    • 자격 증명을 만드는 동안 액세스 토큰 인증을 선택합니다. 자세한 내용은 Microsoft Purview에서 원본 인증을 위한 자격 증명을 참조하세요.
    • Microsoft Purview가 연결하고 검사를 수행할 Databricks SQL Warehouse의 HTTP 경로를 지정합니다.
    • 검사 범위 페이지에서 검사할 카탈로그를 선택합니다.
    • 분류에 대한 검사 규칙 집합을 선택합니다. 시스템 기본값, 기존 사용자 지정 규칙 집합 중에서 선택하거나 인라인으로 새 규칙 집합을 만들 수 있습니다. 자세한 내용은 분류 문서를 참조하세요.
    • 검사 트리거의 경우 일정을 설정할지 아니면 검사를 한 번 실행할지 선택합니다.
    • 검사를 검토하고 저장 및 실행을 선택합니다.
  • 검사 및 검색 실행을 확인하여 데이터 카탈로그를 완료합니다.

검사한 후에는 UC(Unity Catalog)의 데이터 자산을 Microsoft Purview 통합 카탈로그 검색에서 사용할 수 있습니다. Microsoft Purview에서 Azure Databricks Unity Catalog를 연결하고 관리하는 방법에 대한 자세한 내용은 이 문서를 참조하세요.

중요

  • 자격 증명을 만드는 동안 액세스 토큰 인증을 선택합니다.
  • 호스트된 Azure Key Vault 액세스 토큰을 배치하고 키 자격 증명 모음을 연결 관리자에 연결합니다.
  • Key Vault 제품(서비스) MSI 읽기(비밀) 액세스를 제공해야 합니다.

데이터 품질 검사를 위해 databricks UC에 대한 연결 설정

이 시점에서 검사된 자산은 카탈로그화 및 거버넌스에 사용할 준비가 되어 있습니다. 검사된 자산을 거버넌스 도메인 Sele의 데이터 제품에 연결합니다. 데이터 품질 탭에서 새 Azure SQL 데이터베이스 연결: 수동으로 입력한 데이터베이스 이름 가져오기를 추가합니다.

  1. 데이터 품질 > 거버넌스 도메인 > 관리 탭을 선택하여 연결을 만듭니다.

  2. 연결 페이지에서 연결을 구성합니다.

    • 연결 이름 및 설명 추가
    • 원본 유형 Azure Databricks 선택
    • 작업 영역 URL 선택
    • 추출 방법으로 Unity 카탈로그 선택
    • HTTP 경로 선택
    • Unity 카탈로그 이름 선택
    • 스키마 이름 선택
    • 테이블 이름 선택
    • 인증 방법 선택 - 액세스 토큰
      • Azure 구독 추가
      • 키 자격 증명 모음 연결
      • 비밀 이름
      • 비밀 버전
  3. 연결 테스트

databricks UC 연결을 설정하는 방법을 보여 주는 스크린샷

databricks 연결 토큰을 구성하는 방법을 보여 주는 스크린샷

중요

  • 데이터 품질 관리자는 데이터 품질 연결을 설정하려면 Azure databrics Unity Catalog에 대한 읽기 전용 액세스 권한이 필요합니다.
  • vNet은 아직 지원되지 않습니다.

Azure Databricks Unity Catalog 데이터베이스의 데이터에 대한 프로파일링 및 데이터 품질 검사

연결 설정이 성공적으로 완료되면 Azure Databricks Unity Catalog 데이터베이스에서 데이터를 프로파일하고, 만들고, 적용하고, 데이터의 DQ 검사를 실행할 수 있습니다. 아래 문서에 설명된 단계별 지침을 따릅니다.

참조 문서