다음을 통해 공유


데이터 자산의 데이터 품질 점수 찾아보기 및 검토

데이터 품질 규칙을 만들고데이터 품질 검사를 실행하면 데이터 자산은 규칙의 결과에 따라 데이터 품질 점수를 받습니다. 이 문서에서는 데이터 품질 결과에 대한 심층적인 이해를 제공하고 데이터 무결성을 개선하기 위한 작업 항목을 개발하는 데 도움이 되도록 점수를 계산하는 방법을 설명합니다.

데이터 품질 점수 이해

데이터 품질 규칙의 목표는 데이터 상태에 대한 설명을 제공하는 것입니다. 특히 데이터가 규칙에 의해 설명된 이상적인 상태에서 얼마나 멀리 떨어져 있는지를 보여줍니다. 각 규칙이 실행되면 데이터가 원하는 상태에 얼마나 가까운지 설명하는 점수를 생성합니다. 대부분의 규칙은 매우 간단합니다. 평가를 통과한 총 행 수를 점수에 도달할 행의 총 수로 나눕니다.

열의 데이터에 대한 규칙의 데이터 품질 점수를 계산하는 데 사용되는 수식은 다음과 같습니다.

[(total number of passed records)/(passed records + failed records + miscast records + empty records + ignored records)]

  • Numerator = 전달된 레코드 수
  • 분모 = 총 레코드 수(전달된 레코드 수 + 실패한 레코드 수 + 잘못된 캐스트 레코드 수 + 빈 레코드 수 + 무시된 레코드 수)
    • 전달됨 - 적용된 규칙을 통과한 레코드 수
    • 중요하지 않음 - 이 규칙을 평가하는 데 필요한 열은 가치가 없습니다.
    • 실패 - 적용된 규칙에 실패한 레코드 수
    • Miscast - 자산의 데이터 형식 및 고객이 일치하지 않는 것으로 나열한 형식입니다. 표현된 형식으로 변환할 수 없습니다.
    • 비어 있음 - null 또는 빈 레코드
    • 무시됨 - 행이 규칙 평가에 참여하지 않았습니다. 고객은 무시할 행을 표현할 수 있습니다. 마찬가지로 이메일이 있는 모든 행 무시 = "n/a" 또는 departmentCode = 'test' 또는 'internal'인 모든 행 무시

그런 다음 Microsoft Purview 데이터 품질 열 점수를 생성하여 각 열의 상태에 대한 감각을 제공합니다. 이 점수는 해당 열에 있는 규칙의 모든 점수의 평균입니다.

열 수준의 데이터 품질 점수를 보여 주는 스크린샷.

열 점수가 계산되면 데이터 제품 및 거버넌스 도메인의 평균 백분율 데이터 품질 점수를 계산하는 데 사용되는 수식은 다음과 같습니다.

[(Percentage 1 + Percentage 2) / (Sample size 1 + Sample size 2)] x 100

점수는 100을 곱하여 점수를 더 읽기 쉽게 만듭니다.

예제 계산

' 빈/빈 필드' 규칙이 정의되지 않은 열이 있다고 상상해 보겠습니다. 이는 이 열에 대해 null 값이 허용됨을 의미합니다. 따라서 고유 값 규칙과 같은 특정 규칙은 이 경우 null 값을 필터링합니다.

예: 자산에 테이블에 10,000개의 행이 있지만 3,000개의 행이 null이고 500개 행이 고유하지 않은 경우 점수는 다음과 같습니다. ((10000 - 3000 - 500)/(10000 - 3000) )* 100 = 93

데이터를 평가하고 점수를 결정할 때 null 행은 무시됩니다.

특정 규칙 점수

사용자 지정 규칙의 경우 고유 값 규칙에 대해 표시되는 것과 비슷한 기능이 있지만, 이 경우 필터는 null이 아니라 필터 식에 있습니다.

새로 고침 규칙과 같은 일부 규칙은 통과되거나 실패합니다. 따라서 점수는 0 또는 100이 됩니다. 새로 고침 규칙은 열 수준이 아닌 데이터 자산 수준에 적용됩니다.

규칙 세부 정보 및 기록

규칙을 선택하여 규칙 점수의 세부 정보 및 기록을 볼 수 있습니다. 특정 규칙 이름을 선택하고 규칙 기록 탭으로 이동하면 특정 규칙에 대한 다양한 검사 실행의 추세가 표시됩니다.

  • 규칙 세부 정보는 특정 규칙에 대한 다양한 실행에 대해 전달, 실패 및 무시된 행 수에 대한 정보를 제공합니다. 초안 상태(OFF 상태)에 있는 규칙은 점수가 전역 점수에 기여하지 않습니다. 초안 상태의 규칙은 품질 검사 중에 전혀 실행되지 않으므로 점수가 없습니다.

    규칙 수준의 데이터 품질 점수를 보여 주는 스크린샷

  • 열과 규칙은 다 대 다 관계를 가지며, 동일한 규칙을 여러 열에 적용할 수 있으며, 많은 규칙을 동일한 열에 적용할 수 있습니다. 스키마 창에서 추세 줄을 확인하여 각 규칙의 추세 패턴을 볼 수 있습니다.

    규칙의 추세선을 보여 주는 스크린샷

  • 자산 수준 데이터 품질 점수 추세는 최근 50번의 실행에 사용할 수 있습니다. 이러한 품질 점수 추세는 데이터 품질 관리자가 월별 데이터 품질 추세 및 변동을 모니터링하는 데 도움이 됩니다. 품질 점수가 임계값 또는 비즈니스 기대치를 충족하지 않는 경우 데이터 품질은 모든 데이터 품질 검사에 대한 경고를 트리거 할 수도 있습니다.

    데이터 엔터티의 데이터 품질 점수 추세 스크린샷.

  • 전역 점수는 자산에 정의된 모든 프로덕션 규칙의 평균입니다. 자산 수준 전역 점수도 데이터 제품 수준 및 거버넌스 도메인 수준으로 롤업됩니다. 글로벌 점수는 데이터 품질 컨텍스트에서 데이터 자산, 데이터 제품 및 거버넌스 도메인의 상태를 공식적으로 정의하기 위한 것입니다.

    거버넌스 도메인에 대한 글로벌 데이터 품질 점수를 보여 주는 스크린샷

  • 요약 보고서는 데이터 품질 차원에 대해 만들어집니다. 이 보고서에는 각 데이터 품질 차원에 대한 데이터 품질 점수가 포함됩니다. 거버넌스 도메인에 대한 전역 점수도 이 보고서에 게시됩니다. 이 Power BI 보고서에서 각 거버넌스 도메인, 데이터 제품 및 데이터 자산에 대한 품질 점수를 찾아볼 수 있습니다.

    데이터 품질 차원 보고서

참고

데이터 품질 차원은 비즈니스 운영에 사용하는 데이터의 품질 수준을 정량화하기 위해 정의된 표준에 대해 측정하거나 평가할 수 있는 데이터의 기능을 설명하기 위해 데이터 실무자가 사용하는 용어로 인식됩니다.

다음 단계