다음을 통해 공유


데이터 품질 평가를 위해 데이터 원본을 연결하도록 데이터 원본 연결 설정

데이터 원본 연결은 통계 스냅샷 데이터를 프로파일링하거나 데이터 품질 이상 및 채점을 검사하는 데 필요한 인증을 설정합니다.

데이터 원본 연결 설정은 데이터 자산에 대한 데이터 품질 수명 주기의 네 번째 단계입니다. 이전 단계는 다음과 같습니다.

  1. 통합 카탈로그 사용자 데이터 품질 관리자 권한을 할당하여 모든 데이터 품질 기능을 사용합니다.
  2. Microsoft Purview 데이터 맵 데이터 원본을 등록하고 검사합니다.
  3. 데이터 제품에 데이터 자산 추가

필수 구성 요소

  1. 데이터 자산에 대한 연결을 만들려면 사용자가 데이터 품질 관리자 역할에 있어야 합니다.
  2. 연결을 설정하는 데이터 원본에 대한 읽기 권한이 적어도 필요합니다.

지원되는 다중 클라우드 데이터 원본

  • Azure Data Lake Storage Gen2
    • 파일 형식: Delta Parquet 및 Parquet
  • Azure SQL 데이터베이스
  • 바로 가기 및 미러링 데이터 자산을 포함하여 OneLake의 패브릭 데이터 자산입니다. 데이터 품질 검사는 Lakehouse 델타 테이블 및 parquet 파일에 대해서만 지원됩니다.
    • 미러링 데이터 자산: Cosmos DB, Snowflake, Azure SQL
    • 바로 가기 데이터 자산: AWS S3, GCS, AdlsG2
  • 서버리스 및 데이터 웨어하우스 Azure Synapse
  • Azure Databricks Unity 카탈로그
  • Snowflake
  • Google 빅 쿼리(프라이빗 미리 보기)

현재 Microsoft Purview는 관리 ID 를 인증 옵션으로 사용하여 데이터 품질 검사만 실행할 수 있습니다. 데이터 품질 서비스는 Apache Spark 3.4Delta Lake 2.4에서 실행됩니다.

중요

이러한 원본에 액세스하려면 Azure Storage 원본을 개방형 방화벽으로 설정하거나, 신뢰할 수 있는 Azure 서비스를 허용하거나, 프라이빗 엔드포인트를 사용하도록 설정해야 합니다. 데이터 품질 관리형 가상 네트워크 구성 가이드에 설명된 지침을 따릅니다.

데이터 원본 연결 설정

  1. 통합 카탈로그 상태 관리를 선택한 다음, 데이터 품질을 선택합니다.

  2. 목록에서 거버넌스 도메인을 선택합니다.

  3. 관리 드롭다운 목록에서 Connections 선택하여 연결 페이지를 엽니다.

    Microsoft Purview 데이터 품질 연결 페이지의 스크린샷

  4. 새로 만들기를 선택하여 거버넌스 도메인의 데이터 제품 및 데이터 자산에 대한 새 연결을 만듭니다.

    Microsoft Purview 데이터 품질 연결 설정 페이지의 스크린샷

  5. 오른쪽 패널에서 다음 정보를 입력합니다.

    • 표시 이름
    • 설명
  6. 원본 유형을 선택하고 데이터 원본 중 하나를 선택합니다.

  7. 데이터 원본에 따라 액세스 세부 정보를 입력합니다.

  8. 테스트 연결이 성공하면 연결 구성 을 제출 하여 연결 설정을 완료합니다.

프라이빗 엔드포인트 및 Microsoft Purview 데이터 품질 관리형 가상 네트워크를 사용하여 리소스에 대한 연결을 만들 수도 있습니다. 자세한 내용은 관리형 가상 네트워크 문서를 참조하세요.

연결 설정 단계는 네이티브 커넥터에 따라 다릅니다. 네이티브 커넥터 문서에서 연결 설정 단계를 확인하여 Azure Databricsks, Snowflake, GoogBigQuery 및 synapse 커넥터에 대한 연결을 설정합니다.

원본에 대한 Microsoft Purview 권한 부여

이제 연결이 만들어지고 데이터 원본을 검색할 수 있게 되었으므로 Microsoft Purview 관리 ID에 데이터 원본에 대한 권한이 필요합니다.

다음 단계

  1. 데이터 원본의 자산에 대한 데이터 프로파일링을 구성하고 실행합니다.
  2. 프로파일링 결과에 따라 데이터 품질 규칙을 설정하고 데이터 자산에 적용합니다.
  3. 데이터 제품에서 데이터 품질 검사를 구성하고 실행 하여 데이터 제품의 지원되는 모든 자산의 품질을 평가합니다.
  4. 검사 결과를 검토 하여 데이터 제품의 현재 데이터 품질을 평가합니다.