중요한 데이터 요소에 대한 데이터 품질 관리(미리 보기)
중요한 데이터 요소 (CDE)는 데이터 원본의 테이블 간에 중요한 열을 논리적으로 그룹화하여 가장 큰 효과를 발휘할 수 있는 거버넌스 노력을 전략적으로 집중할 수 있도록 합니다.
Microsoft Purview 데이터 품질 CDE(중요 데이터 요소)의 품질을 측정하기 위한 통합 솔루션을 제공하므로 조직은 이러한 주요 데이터 요소가 정확도, 완전성, 일관성 및 무결성에 필요한 표준을 충족하는지 확인할 수 있습니다.
조직은 품질을 유지하기 위해 CDE가 충족해야 하는 특정 품질 임계값을 설정할 수 있습니다. 이러한 임계값은 논리적 CDE 수준에서 적용되지만 CDE를 구성하는 모든 개별 열로 세분화됩니다. 이러한 규칙은 유효성 검사, 정리, 표준화 및 보강을 포함하여 데이터 품질에 대한 다양한 측면을 포함할 수 있습니다. 예를 들어 데이터 품질 규칙은 고객 주소를 특정 형식으로 표준화하거나 직원 ID가 특정 패턴을 준수하도록 지정할 수 있습니다.
데이터 품질 규칙이 CDE에 적용되면 Microsoft Purview 데이터 품질 기본 물리적 데이터 요소를 체계적으로 평가하여 이러한 규칙 준수를 평가합니다. Purview Data Quality의 통합된 접근 방식을 사용하여 조직은 중요한 데이터 요소의 품질을 사전에 모니터링하고 관리하여 신뢰할 수 있고 정확하며 목적에 맞는 상태를 유지할 수 있습니다. 이는 의사 결정 프로세스를 향상시킬 뿐만 아니라 데이터 오류 또는 불일치와 관련된 위험을 완화하여 궁극적으로 더 나은 비즈니스 결과를 이끌어 내는 데 도움이 됩니다.
지원되는 자산 유형
- Azure Data Lake Storage(ADLS Gen2)
- 파일 형식: Delta 및 Parquet
- Azure SQL 데이터베이스
- OneLake의 패브릭 데이터 자산에는 바로 가기 및 미러링 데이터 자산이 포함됩니다. 데이터 품질 검사는 Lakehouse 델타 테이블 및 parquet 파일에 대해서만 지원됩니다.
- 미러링 데이터 자산: CosmosDB, Snowflake, Azure SQL
- 바로 가기 데이터 자산: AWS S3, GCS, AdlsG2 및 dataverse
- 서버리스 및 데이터 웨어하우스 Azure Synapse
- Azure Databricks Unity 카탈로그
- Snowflake
- Google 빅 쿼리(프라이빗 미리 보기)
CDE에 사용 가능한 데이터 품질 규칙
Microsoft Purview 데이터 품질 CDE에 대해 아래 규칙을 구성할 수 있습니다. 규칙을 선택하면 일반 데이터 품질 규칙 문서 로 이동하여 자세한 내용을 확인할 수 있습니다.
규칙 | 정의 |
---|---|
고유 값 | 열의 값이 고유한지 확인합니다. |
데이터 형식 일치 | 열의 값이 해당 데이터 형식 요구 사항과 일치하는지 확인합니다. |
빈/빈 필드 | 값이 있어야 하는 열에서 빈 필드와 빈 필드를 찾습니다. |
CDE에 대한 데이터 품질 구성
아직 CDE( 중요한 데이터 요소)를 만들고열을 추가하지 않은 경우
다음을 통해 CDE를 엽니다.
- Microsoft Purview 통합 카탈로그 열고 데이터 관리 드롭다운 및 거버넌스 도메인 하위 메뉴를 선택합니다.
- 목록에서 거버넌스 도메인 을 선택합니다.
- 중요 데이터 요소 타일을 선택합니다.
- 목록에서 중요한 데이터 요소를 선택합니다.
중요한 데이터 요소에서 데이터 품질 탭을 선택합니다.
새 규칙을 선택하여 중요한 데이터 요소에 새 규칙을 추가합니다.
사용할 데이터 품질 규칙 유형을 선택하고 다음을 선택합니다.
규칙 유형에 필요한 세부 정보를 제공합니다.
규칙을 해제할지 아니면 켜기로 전환할지 선택합니다.
만들기를 선택합니다.
CDE에 대한 데이터 품질 규칙 실행
CDE와 연결된 열이 있는 사용 가능한 데이터 자산에 대해 데이터 품질 검사를 실행하면 해당 CDE에 대해 구성한 데이터 품질 규칙이 점수를 생성합니다.
CDE와 연결된 데이터 자산에 대한 데이터 품질 검사를 예약하거나 실행합니다.
실행될 때 데이터 품질 검사 작업의 진행률을 모니터링하여 오류 또는 중단 없이 완료되도록 합니다. 적용된 데이터 품질 규칙이 기록 스냅샷 성공적으로 실행되었는지 확인합니다.
검사 작업의 결과를 검토하여 적용된 규칙에 따라 CDE 데이터 자산의 품질을 평가합니다.
데이터 품질 검사 작업의 결과를 분석하여 CDE 데이터 자산과 관련된 문제, 변칙 또는 개선 영역을 식별합니다. 여기에는 품질을 개선하기 위해 데이터를 정리, 표준화 또는 보강하는 작업이 포함될 수 있습니다.