다음을 통해 공유


Fabric Lakehouse 데이터 자산의 데이터 품질(미리 보기)

패브릭 OneLake는 전체 organization 대한 단일 통합 논리 데이터 레이크입니다. Data Lake는 다양한 원본에서 대량의 데이터를 처리합니다. OneDrive와 마찬가지로 OneLake는 모든 Microsoft Fabric 테넌트와 함께 자동으로 제공되며 모든 분석 데이터에 대한 단일 위치로 설계되었습니다. OneLake는 고객을 제공합니다.

  • 전체 organization 대한 하나의 데이터 레이크
  • 여러 분석 엔진에 사용할 데이터 복사본 1개

OneLake는 데이터 이동 또는 중복 없이 단일 데이터 복사본 중에서 가능한 한 많은 가치를 제공하는 것을 목표로 합니다. 더 이상 다른 엔진과 함께 사용하거나 사일로를 분해하기 위해 데이터를 복사할 필요가 없으므로 다른 원본의 데이터로 데이터를 분석할 수 있습니다. Microsoft Purview를 사용하여 패브릭 데이터 자산을 카탈로그화하고 데이터 품질을 측정하여 개선 작업을 제어하고 추진할 수 있습니다.

다른 파일 위치에 저장된 데이터를 참조하는 데 바로 가기를 사용할 수 있습니다. 이러한 파일 위치는 동일한 작업 영역 내 또는 다른 작업 영역, OneLake 내 또는 ADLS(Azure Data Lake Storage OneLake 외부), AWS S3 또는 Dataverse에 있을 수 있으며, 더 많은 대상 위치가 곧 제공될 예정입니다. 데이터 원본 위치는 그다지 중요하지 않습니다. OneLake 바로 가기는 파일과 폴더를 로컬에 저장한 것처럼 보이게 합니다. 팀이 별도의 작업 영역에서 독립적으로 작업하는 경우 바로 가기를 사용하면 다양한 비즈니스 그룹 및 도메인의 데이터를 사용자의 특정 요구 사항에 맞게 가상 데이터 제품으로 결합할 수 있습니다.

미러링을 사용하여 다양한 원본의 데이터를 패브릭 미러링 in Fabric으로 가져올 수 있습니다. 이 솔루션은 다양한 시스템의 데이터를 단일 분석 플랫폼으로 통합하는 저렴한 대기 시간 솔루션입니다. Azure SQL Database, Azure Cosmos DB 및 Snowflake의 데이터를 포함하여 기존 데이터 자산을 패브릭의 OneLake에 지속적으로 복제할 수 있습니다. OneLake에서 쿼리 가능한 형식의 최신 데이터를 사용하면 이제 Fabric의 모든 다른 서비스를 사용할 수 있습니다. 예를 들어 Spark를 사용하여 분석 실행, Notebook 실행, 데이터 엔지니어링, Power BI 보고서 등을 통해 시각화합니다. 그런 다음, 델타 테이블을 패브릭의 모든 곳에서 사용할 수 있으므로 사용자가 패브릭으로의 여정을 가속화할 수 있습니다.

데이터 맵 검사 구성

데이터 맵 검사를 구성하려면 검사하려는 데이터 원본을 등록해야 합니다.

Fabric OneLake 등록

패브릭 작업 영역을 검사하기 위해 패브릭 테넌트 를 데이터 원본으로 등록하기 위한 기존 환경은 변경되지 않습니다. Microsoft Purview 통합 카탈로그 새 데이터 원본을 등록하려면 다음 단계를 수행합니다.

  • Microsoft Purview 거버넌스 포털에서 Microsoft Purview 계정으로 이동합니다.
  • 왼쪽 탐색 창에서 데이터 맵을 선택합니다.
  • 등록 선택
  • 원본 등록에서 패브릭을 선택합니다.

설치 지침은 동일한 테넌트교차 테넌트 를 참조하세요.

데이터 맵 검사 설정

Lakehouse 하위 계층을 검사하는 경우 Purview의 기존 환경이 검사 설정을 변경하지 않습니다. 지원되는 파일 형식에서 스키마 정보를 추출하기 위해 패브릭 작업 영역에서 적어도 기여자 역할로 검사 자격 증명을 부여하는 또 다른 단계가 있습니다.

현재 서비스 주체만 인증 방법으로 지원됩니다. MSI 지원은 여전히 백로그에 있습니다.

설치 지침은 동일한 테넌트교차 테넌트 를 참조하세요.

패브릭 레이크하우스 검사에 대한 연결 설정

패브릭 레이크하우스를 원본으로 등록한 후 등록된 데이터 원본 목록에서 패브릭을 선택하고 새 검사를 선택할 수 있습니다. 아래 스크린샷에 강조 표시된 대로 연결 세부 정보를 추가합니다.

패브릭 검사 설정.

  1. 보안 그룹 및 서비스 주체 만들기
  2. 이 서비스 주체와 Purview 관리 ID를 모두 이 보안 그룹에 추가한 다음, 이 보안 그룹을 제공해야 합니다.
  3. 보안 그룹을 패브릭 테넌트와 연결
    1. 패브릭 관리 포털에 로그인합니다.
    2. 테넌트 설정 페이지를 선택합니다. 테넌트 설정 페이지를 보려면 패브릭 관리 있어야 합니다.
    3. 관리 API 설정 > 서비스 주체가 읽기 전용 관리자 API를 사용하도록 허용을 선택합니다.
    4. 특정 보안 그룹을 선택합니다.
    5. 관리 API 설정 > 자세한 메타데이터를 사용하여 관리자 API 응답 향상 및 DAX 및 매시업 식을 > 사용하여 관리자 API 응답 향상을 선택합니다. 토글을 사용하면 Microsoft Purview 데이터 맵 패브릭 데이터 세트의 세부 메타데이터를 검사의 일부로 자동으로 검색할 수 있습니다. 패브릭 테넌트에서 관리 API 설정을 업데이트한 후 검색 및 테스트 연결을 등록하기 전에 약 15분 정도 기다립니다.
  4. 이 보안 그룹에 관리 API 설정 읽기 전용 API 권한을 제공합니다.
  5. 자격 증명 필드에 SPN을 추가합니다.
  6. Azure 리소스 이름을 추가합니다.

패브릭 데이터맵 검사 페이지 1

  1. 테넌트 ID를 추가합니다.
  2. 서비스 원칙 ID를 추가합니다.
  3. Key Vault 연결을 추가합니다.
  4. 비밀 이름을 추가합니다.

패브릭 데이터맵 검사 페이지 2

데이터 맵 검사를 완료한 후 통합 카탈로그 Lakehouse instance 찾습니다.

통합 카탈로그 패브릭 레이크하우스 찾아보기를 보여 주는 스크린샷

테이블 범주를 통해 레이크하우스 테이블을 찾습니다.

통합 카탈로그 패브릭 레이크하우스 테이블 찾아보기를 보여 주는 스크린샷

Fabric Lakehouse 데이터 품질 검사 필수 구성 요소

  1. 데이터를 델타 형식으로 Fabric 레이크하우스에 바로 가기, 미러 또는 로드합니다.

패브릭 델타 테이블을 보여 주는 스크린샷

중요

모러링 또는 바로 가기를 통해 패브릭 레이크하우스에 새 테이블, 파일 또는 새 데이터 집합을 추가한 경우 데이터 품질 평가를 위해 해당 데이터 자산을 데이터 제품에 추가하기 전에 데이터 맵 scope 검사를 실행하여 새 데이터 집합을 카탈로그화해야 합니다.

  1. Purview MSI에 대한 작업 영역에 대한 기여자 권한 부여

기여자 액세스 권한을 부여하는 방법을 보여 주는 스크린샷

  1. 레이크하우스에서 검사된 데이터 자산을 거버넌스 도메인의 데이터 제품에 추가합니다. 데이터 프로파일링 및 DQ 검사는 거버넌스 도메인의 데이터 제품과 연결된 데이터 자산에 대해서만 수행할 수 있습니다.

데이터 제품에 추가된 레이크하우스 데이터 자산을 보여 주는 스크린샷

데이터 프로파일링 및 데이터 품질 검사의 경우 다른 커넥터를 사용하여 데이터 원본을 연결하고 데이터를 검사하여 데이터 품질 팩트 및 차원을 캡처할 때 데이터 원본 연결을 만들어야 합니다. 연결을 설정하려면 다음을 수행합니다.

  • 통합 카탈로그 상태 관리를 선택한 다음, 데이터 품질을 선택합니다.

  • 거버넌스 도메인을 선택하고 관리 드롭다운 목록에서 Connections 선택합니다.

  • 새로 만들기를 선택하여 연결 구성 페이지를 엽니다.

  • 연결 표시 이름 및 설명을 추가합니다.

  • 원본 형식 패브릭을 추가 합니다.

  • 테넌트 ID를 추가합니다.

  • 자격 증명 - Microsoft Purview MSI를 추가합니다.

  • 연결을 테스트하여 구성된 연결이 성공했는지 확인합니다.

    패브릭 연결을 설정하는 방법을 보여 주는 스크린샷

중요

  • DQ 검사의 경우 Purview MSI는 패브릭 작업 영역에 대한 기여자 액세스 권한이 있어야 패브릭 작업 영역을 연결할 수 있습니다. 기여자 액세스 권한을 부여하려면 패브릭 작업 영역을 열고 점 3개(...)를 선택하고 작업 영역 액세스를 선택한 다음 사용자 또는 그룹 추가를 선택한 다음 Purview MSI를 기여자로 추가합니다.
  • 패브릭 테이블은 델타 형식 또는 빙산 형식이어야 합니다.

패브릭 레이크하우스의 데이터에 대한 프로파일링 및 DQ(데이터 품질) 검사

연결 설정이 성공적으로 완료되면 패브릭 레이크하우스에서 데이터를 프로파일하고, 만들고, 적용하고, DQ(데이터 품질) 검사를 실행할 수 있습니다. 아래에 설명된 단계별 지침을 따릅니다.

  1. 큐레이션, 검색 및 구독을 위해 Lakehouse 테이블을 데이터 제품에 연결합니다. 자세한 내용은 문서 -how to create and manage data products(데이터 제품을 만들고 관리하는 방법) 문서를 참조하세요.

레이크하우스 테이블을 데이터 제품과 연결하는 방법을 보여 주는 스크린샷

  1. 패브릭 레이크하우스 테이블을 프로파일합니다. 자세한 내용은 문서의 -how to configure and run data profiling of data(데이터의 데이터 프로파일링을 구성하고 실행하는 방법)를 참조하세요.

레이크하우스 테이블 프로필을 보여 주는 스크린샷

  1. 패브릭 레이크하우스 테이블의 데이터 품질을 측정하도록 데이터 품질 검사를 구성하고 실행합니다. 자세한 내용은 문서 - 데이터 품질 검사를 구성하고 실행하는 방법을 따르세요.

레이크하우스 테이블 스캔을 보여 주는 스크린샷

중요

  • 데이터가 델타 형식 또는 빙산 형식인지 확인합니다.
  • 데이터 맵 검사를 다시 실행하지 않으면 데이터 맵 검사가 성공적으로 실행되었는지 확인합니다.

제한 사항

Parquet 파일의 데이터 품질은 다음을 지원하도록 설계되었습니다.

  • Parquet 파트 파일이 있는 디렉터리입니다. 예: ./Sales/{Parquet Part Files}. 정규화된 이름은 을 따라 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}야 합니다. 디렉터리/하위 디렉터리 구조에 {n} 패턴이 없는지 확인합니다. 대신 {SparkPartitions}로 이어지는 직접 FQN이어야 합니다.
  • 분할된 Parquet Files가 있는 디렉터리로, 연도 및 월별로 분할된 판매 데이터와 같은 데이터 세트 내의 열로 분할됩니다. 예: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

일관된 parquet 데이터 세트 스키마를 제공하는 이러한 필수 시나리오가 모두 지원됩니다. 제한 사항: Parquet Files를 사용하여 디렉터리의 N 임의 계층을 지원하거나 지원하지 않습니다. (1) 또는 (2) 생성된 구조에 데이터를 제시하는 것이 좋습니다. 따라서 고객이 지원되는 parquet 표준을 따르거나 데이터를 ACID 규격 델타 형식으로 마이그레이션할 것을 권장합니다.

데이터 맵의 경우

  • SPN에 작업 영역 권한이 있는지 확인합니다.
  • 검사 연결에서 SPN을 사용하는지 확인합니다.
  • 레이크하우스 스캔을 처음 설정하는 경우 전체 검사를 실행하는 것이 좋습니다.
  • 수집된 자산이 업데이트/새로 고쳐졌는지 확인합니다.

통합 카탈로그

  • DQ 연결은 MSI 자격 증명을 사용해야 합니다.
  • 레이크하우스 데이터 DQ 검사를 처음으로 테스트하기 위한 새 데이터 제품을 만드는 것이 가장 좋습니다.
  • 데이터 자산이 업데이트되는 검사 수집된 데이터 자산을 추가합니다.
  • 실행 프로필을 사용해 보세요. 성공하면 DQ 규칙을 실행해 보세요. 성공하지 못한 경우 자산 스키마 새로 고침(스키마 스키마> 관리 가져오기 스키마)
  • 일부 사용자는 모든 것이 처음부터 작동하도록 검사 위해 새 Lakehouse 및 샘플 데이터를 만들어야 했습니다. 경우에 따라 이전에 데이터 맵에서 수집된 자산으로 작업하는 환경이 일관되지 않습니다.

참조 문서