Power BI에서의 데이터 프로파일링

완료됨

데이터 프로파일링이란 변칙 사항을 확인하고, 기본 데이터 구조를 검사 및 개발하며, 행 개수와 값 분포, 최소/최댓값, 평균 등의 데이터 통계를 쿼리하는 작업 등을 이용해 데이터의 미묘한 차이를 파악하는 일을 말합니다. 데이터의 모양을 지정하고 조직하여 쉽게 데이터와 상호작용하고 데이터 분포를 확인할 수 있으며, 따라서 프런트 엔드에서 데이터를 수월하게 처리하고 보고서 요소를 손쉽게 개발할 수 있기 때문에 대단히 중요한 개념입니다.

조직에서 영업 팀을 위한 보고서를 작성한다고 가정해보겠습니다.  데이터가 테이블에서 어떻게 구조화되고 포함되는지 잘 모르기 때문에 시각적 개체 개발을 시작하기 전에 데이터를 백그라운드에서 프로파일링하려고 합니다.  Power BI는 이러한 작업을 사용자 친화적이고 알기 쉽게 처리할 수 있는 기본 기능을 제공합니다.

데이터 구조 검사

Power Query 편집기에서 데이터 검사를 시작하기 전에 먼저 데이터가 구성되는 기본 데이터 구조를 알아야 합니다. Power BI Desktop의 모델 탭에서 현재 의미 체계 모델을 확인할 수 있습니다.

모델 탭에서는 테이블이나 열을 선택하여 특정 열 및 테이블 속성을 편집하고, 데이터 변환 단추를 눌러 Power Query 편집기를 열어 데이터를 변환할 수 있습니다. 또한 리본에 있는 관계 관리를 사용하여 서로 다른 테이블 간의 관계를 관리하고, 만들고, 편집하고, 삭제할 수도 있습니다.

데이터 변칙 및 데이터 통계 찾기

데이터 원본과의 연결을 생성하고 데이터 변환을 선택하면 Power Query 편집기가 열립니다. 여기서는 데이터에 존재하는 변칙을 확인할 수 있습니다.  데이터 변칙은 데이터 내의 이상값을 말합니다. 이러한 변칙을 확인하면 데이터의 정상적인 분포와 추가로 조사해야 하는 특정 데이터 요소 존재 여부를 식별할 수 있습니다. Power Query 편집기는 열 분포 기능을 사용하여 데이터 변칙을 확인합니다.

리본에서 보기를 선택하면 데이터 미리 보기에서 몇 가지 옵션을 선택할 수 있습니다. 데이터 변칙과 통계를 확인하려면 열 분포, 열 품질열 프로필 옵션을 선택합니다.  다음 그림에서는 표시되는 통계를 확인할 수 있습니다.

열 품질열 분포가 데이터 열 위의 그래프에 표시됩니다. 열 품질은 유효한 데이터, 오류 데이터 및 비어 있는 데이터의 백분율을 보여 줍니다. 이상적인 상황에서는 데이터 100%가 유효해야 합니다.

참고

기본적으로 파워 쿼리는 데이터 세트의 처음 1,000개 행을 검사합니다. 이를 변경하려면 상태 표시줄에서 프로파일링 상태를 선택하고 전체 데이터 세트에 따라 열 프로파일링을 선택합니다. ]

열 배포에는 열에 있는 데이터의 분포와 개별 및 고유 값의 수가 표시됩니다. 두 항목 모두에서 데이터 개수 관련 세부 정보를 확인할 수 있습니다. 개별 값은 중복 및 null 값을 포함한 열에 있는 모든 다른 값이며 고유 값은 중복 또는 null을 포함하지 않습니다. 따라서 이 표의 개별 항목에서는 존재하는 값의 총 개수를 알 수 있고 고유 항목에서는 한 번만 표시되는 해당 값의 개수를 확인할 수 있습니다.

열 프로필을 사용하면 처음 1,000개 행의 데이터에 대해 열 내의 통계를 더 자세히 살펴볼 수 있습니다. 이 열에서는 행 숫자를 포함한, 데이터 가져오기 성공 여부를 확인할 때 중요한 역할을 하는 다양한 값을 제공합니다. 예를 들어 원래 데이터베이스에 행이 100개 있다면 이 행을 사용하여 행 100개를 실제로 올바르게 가져왔는지 확인할 수 있습니다. 또한 이 행 개수를 사용하면 Power BI가 이상값으로 간주한 행의 수, 빈 행과 문자열, 열 내 가장 작은 값과 가장 큰 값을 의미하는 최솟값과 최댓값을 파악할 수 있습니다. 이러한 구분은 숫자 데이터의 경우 비즈니스가 “최댓값”으로 식별하는 값을 초과하는 최댓값이 있는 경우 즉시 알림이 표시되므로 특히 중요합니다. 이러한 값에 유의하도록 알림이 표시됩니다. 따라서 데이터를 좀 더 집중해서 살펴볼 수 있는 기회가 됩니다.  이전 이미지에서처럼 데이터가 텍스트 열에 있었다면 최솟값은 알파벳순으로 정렬했을 때 첫 번째 값이며 최댓값은 마지막 값입니다.

또한 값 분포 그래프를 사용하면 해당 열의 각 고유 값 수를 확인할 수 있습니다. 이전 이미지의 그래프를 살펴보면 값 분포에서 “Anthony Gross”가 SalesPerson 열에서 제일 자주 등장하고 “Lily Code”가 제일 적게 등장함을 알 수 있습니다. 이 정보는 이상값을 식별할 수 있기 때문에 특히 중요합니다.  특정 값이 열에 있는 다른 값보다 훨씬 자주 등장한다면 값 분포 기능을 사용하여 그 이유를 조사할 정확한 지점을 지정할 수 있습니다.

또한 숫자 열인 열 통계에서는 0 및 null 값의 수와 열의 평균값, 열 내 값의 표준 편차와 짝수 및 홀수 값의 수를 확인할 수 있습니다. 이 통계를 이용하면 열 내 데이터 분포를 확인할 수 있습니다. 이 분포는 열에 있는 데이터를 요약해주며 이상값을 판단하는 시작점 역할을 하기 때문에 중요한 의미가 있습니다.

예를 들어 송장 데이터를 확인할 때 값 분포 그래프를 살펴보면 SalesPerson 열에 있는 몇몇 영업사원이 데이터에서 같은 횟수로 등장함을 알 수 있습니다. 또한 Profit 열과 일부 다른 테이블에서도 같은 현상이 발생합니다. 조사 중에 여러분은 사용 중인 데이터가 잘못된 데이터이며 새로 고침해야 한다는 사실을 알게 되어, 즉시 새로 고침을 완료합니다. 이 그래프를 확인하지 않았다면 이런 오류를 빠르게 확인하지 못했을 것이며, 그래서 값 분포가 대단히 중요합니다.

Power Query 편집기에서 편집을 끝냈고 시각적 개체 구축을 시작할 준비가 끝났다면 Power Query 편집기 리본의 으로 돌아갑니다. 닫기 및 적용을 선택하면 Power BI Desktop으로 돌아가고 모든 열 편집/변환이 적용됩니다.

이제 Power BI에서의 데이터 프로파일링 구성요소를 모두 확인했습니다. 대표적인 요소는 Power BI에서 데이터 로드하기, 열 속성을 확인하여 열에 있는 데이터를 분명하게 확인하고 데이터 형식과 양식을 추가로 편집하기, 데이터 변칙 찾기, Power Query 편집기에서 데이터 통계 확인하기 등입니다. 이 정보를 사용하면 효율적이고 효과적으로 데이터를 연구하는 기능을 도구 키트에 포함할 수 있습니다.