셀프 서비스 분석 및 인사이트(미리 보기)
셀프 서비스 분석 및 인사이트는 비즈니스 사용자가 데이터로부터 독립적으로 인사이트를 액세스, 분석 및 생성할 수 있도록 하는 데이터, 도구 및 플랫폼을 나타냅니다. Microsoft Purview 데이터 거버넌스 애플리케이션은 패브릭 OneLake 및 AdlsG2(Azure Data Lake Storage)에 메타데이터의 도메인 모델을 게시하여 고객이 고유한 도구와 컴퓨팅을 가져와 인사이트를 분석하고 생성할 수 있도록 합니다. 데이터 거버넌스 메타데이터의 셀프 서비스 분석은 고객의 데이터 자산 상태 관리를 지속적으로 개선하고 데이터 자산 인사이트 및 건강 관리에 대한 액세스를 민주화하여 organization 데이터 기반 문화를 촉진하는 데 중요합니다.
핵심 구성 요소
- 데이터 모델: 도메인 및 차원 세부 정보가 있는 3NF 모델
-
메타데이터: 다음을 포함하는 데이터 거버넌스 메타데이터:
- 거버넌스 도메인
- 데이터 제품
- 데이터 자산
- 용어집 용어
- 구독 요청
- 데이터 품질 규칙
- 차원
- 데이터 품질 팩트(통과 및 실패 수)
이점
- 키우고: 데이터 실무자, 데이터 제품 소유자, 데이터 관리자 및 분석가가 데이터 거버넌스 메타데이터를 탐색하고 다양한 원본의 메타데이터를 연결하여 인사이트를 얻을 수 있도록 지원합니다.
- 유연성 및 효율성: 고객은 상태 관리에서 기본 제공 보고서 외에도 사용자 지정 보고서를 만들 수 있습니다.
- 민첩성: 고객 조직은 건강 관리 문제 및 수정에 보다 신속하게 대응할 수 있습니다.
- 비용 효율적인: 플랫폼 설정 및 빌드 도구의 필요성을 줄입니다. 모든 데이터는 OneLake에서 사용할 수 있으며 고객은 OneLake에서 사용 가능한 도구(패브릭 의미 체계 모델, PBI 보고, 데이터 흐름 및 Notebook)를 사용할 수 있습니다.
현재 사용 가능한 보고서(기본 제공)
다음은 사용 가능한 기본 제공 보고서입니다. 이러한 보고서는 사용자 지정할 수 없습니다.
- 클래식 자산 - 형식 및 컬렉션별 자산 개요 및 해당 큐레이션 상태.
- 클래식 카탈로그 채택 - 통합 카탈로그 사용되는 방법을 한눈에 파악합니다. 용어집을 사용하여 용어와 용어의 상태 스냅샷 제공합니다.
- 클래식 분류 - 분류된 자산 및 분류 유형에 대한 개요입니다.
- 클래식 데이터 관리 - 분류된 자산 및 분류 유형에 대한 개요입니다.
- 클래식 용어집 - 용어집 용어의 상태 및 사용.
- 클래식 민감도 레이블 - 민감도 레이블 이 적용된 자산 및 적용된 레이블 유형에 대한 개요입니다.
- 데이터 거버넌스 - 데이터 거버넌스 상태 보고서를 사용하면 팀이 한눈에 상태 진행 상황을 추적하고 더 많은 작업이 필요한 영역을 식별할 수 있습니다.
- 데이터 품질 상태 - 데이터 품질 차원 및 데이터 품질 규칙 성능 보고.
셀프 서비스 분석 메타데이터에 대한 데이터 모델
3NF 도메인 모델은 관계형 데이터베이스 디자인의 정규화 프로세스의 일부로, 데이터베이스가 중복되지 않도록 하고 변칙을 업데이트합니다. 데이터베이스 스키마는 첫 번째 및 두 번째 정규 Forms 요구 사항을 충족하고 모든 특성이 기본 키에만 기능적으로 종속되는 경우 세 번째 표준 형식에 있습니다. 3NF 도메인 모델의 목적은 중복을 최소화하고 데이터 무결성을 보장하는 방식으로 데이터를 구조화하는 데 사용됩니다. 각 정보가 한 번만 저장되는 더 작은 관련 테이블로 데이터를 분해하는 데 중점을 둡니다.
특성:
- 전이적 종속성 제거: 키가 아닌 특성은 다른 키가 아닌 특성에 의존해서는 안 됩니다.
- 논리 그룹화: 데이터는 함수 또는 의미에 따라 논리적으로 도메인으로 그룹화됩니다.
- ERD(Entity-Relationship 다이어그램): 엔터티가 서로 어떻게 관련되는지를 보여 주는 3NF 도메인 모델을 나타내는 데 일반적으로 사용됩니다.
표 이름 | 설명 | 관계 키 |
---|---|---|
액세스 정책 프로비저닝 상태 | 프로비저닝 상태에 대한 정보는 이 테이블에 저장됩니다. | ProvisioningStateId |
액세스 정책 리소스 종류 | Access porlich 리소스 정보는 이 테이블에 저장됩니다. | ResourceTypeId |
액세스 정책 집합 | 액세스 정책, 정책 사용 사례 세부 정보 및 정책이 적용된 위치 등에 대한 전반적인 정보가 이 표에 저장됩니다. | AccessPolicySetId(UniqueId), ResourceTypeId(FK), ProvisioningStateId(FK) |
비즈니스 도메인 | 비즈니스 도메인 이름, 설명, 상태 및 소유권 세부 정보는 비즈니스 도메인 테이블에 게시됩니다. | FK(부모 비즈니스 도메인 ID), FK(사용자 ID)로 만든 경우, FK(사용자 ID)에 의해 마지막으로 수정됨 |
분류 | 데이터 자산 분류 정보는 이 테이블에 저장됩니다. | ClassificationId |
사용자 지정 액세스 사용 사례 | 액세스 사용 사례 정보는 이 테이블에 저장됩니다. | AccessPolicySetId |
데이터 자산 | 데이터 자산 이름, 설명 및 원본 정보는 이 테이블에 저장됩니다. | DataAssetId(UniqueId), DataAssetTypeId(FK), CreatedByUserId(FK), LastModifiedByUserId(FK) |
데이터 자산 열 | 데이터 자산 열 이름, 열 설명 및 참조는 이 테이블에 저장됩니다. | DataAssetId(FK), ColumnId(Unique), DataAssetTypeId(FK), FK(DataTypeId), FK(사용자 ID)로 만든 데이터 Id, FK(사용자 ID)로 마지막으로 수정됨 |
데이터 자산 열 분류 할당 | 데이터 분류 할당 관련 참조 키는 이 테이블에 저장됩니다. | DataAssetId(FK), ColumnId(FK), ClassificationId(FK) |
데이터 자산 도메인 할당 | 데이터 자산 거버넌스 도메인 할당 관련 정보는 이 표에서 확인할 수 있습니다. | DataAssetId(FK), BusinessDomainId(FK), AssignedByUserId(FK) |
데이터 자산 소유자 | 이 테이블에 저장된 데이터 자산 소유자 정보입니다. | DataAssetOwnerId |
데이터 자산 소유자 할당 | 데이터 자산 소유자 할당 정보는 이 테이블에 저장됩니다. | DataAssetId, DataAssetOwnerId |
데이터 자산 형식 데이터 형식 | 데이터 자산 형식 정보는 이 테이블에 저장됩니다. | DataTypeId(UniqueId), DataAssetTypeId(FK) |
데이터 제품 | 이 테이블에 저장된 데이터 제품 이름, 설명, 사용 사례, 상태 및 기타 관련 정보입니다. | DataProductId(UniqueId), DataProductTypeId(FK), DataProductStatusId(FK), UpdateFrequencyId(FK), CreatedByUserId(FK), LastUpdatedByUserId(FK) |
데이터 제품 자산 할당 | 데이터 제품 및 데이터 자산 할당 정보는 이 테이블에 저장됩니다. | DataProductId, DataAssetId |
데이터 제품 비즈니스 도메인 할당 | 데이터 제품 및 거버넌스 도메인 할당 정보는 이 테이블에 저장됩니다. | DataProductId(FK), BusinessDomainId(FK), AssignedByUserId(FK) |
데이터 제품 설명서 | 데이터 제품 설명서 참조 정보는 이 테이블에 저장됩니다. | DataProductId, DocumentationId |
데이터 제품 소유자 | 데이터 제품 소유자 정보는 이 테이블에 저장됩니다. | DataProductId, DataProductOwnerId |
데이터 제품 상태 | 이 테이블에 저장된 데이터 제품 상태(예: 게시된 정보 또는 초안) 관련 정보입니다. | DataProductStatusId |
데이터 제품 사용 약관 | 데이터 제품 사용 약관 정보는 이 테이블에 저장됩니다. | DataProductId, TermOfUsedId, DataAssetId |
데이터 제품 유형 | 마스터, 참조, 운영 등 데이터 제품 유형에 대한 정보는 이 표에 저장됩니다. | DataProductTypeId |
데이터 제품 업데이트 빈도 | 이 데이터 제품의 데이터가 업데이트되는 빈도에 대한 정보는 이 테이블에 저장됩니다. | UpdateFrequencyId |
데이터 품질 자산 규칙 실행 | 이 테이블에 저장된 데이터 품질 검사 결과 | RuleId(FK), DataAssetId(FK), JobExecutionId(FK) |
데이터 품질 작업 실행 | 데이터 품질 작업 실행 상태 이 테이블에 저장됩니다. | JobExecutionId(UniqueId) |
데이터 품질 규칙 | 데이터 품질 규칙에 대한 정보는 이 테이블에 저장됩니다. | RuleId(UniqueId), RuleTypeId(FK), BusinessDomainId(FK), DataProductId(FK), DataAssetId(FK), JobTypeDisplayName(FK), RuleOriginDisplayName(FK), RuleTargetObjectType(FK), CreatedByUserId(FK), LastUpdatedByUserId(FK) |
데이터 품질 규칙 열 실행 | 데이터 품질 규칙 통과 및 실패 횟수, 열 수준의 데이터 품질 점수 및 데이터 품질 작업 실행 세부 정보를 포함하는 정보에 대한 정보가 이 표에 저장됩니다. | RuleId(FK), DataAssetId(FK), ColumnId(FK), JobExecutionId(FK) |
데이터 품질 규칙 형식 | 데이터 품질 규칙 유형 및 관련 차원은 이 테이블에 저장됩니다. | RuleTypeId(UniqueId), DimensionDisplayName(FK) |
데이터 구독 요청 | 데이터 구독자, 적용된 정책, 구독 요청 상태 및 이 테이블에 저장된 기타 관련 정보에 대한 정보입니다. | SubscriberRequestId(UniqueId), SubscriberIdentityTypeDisplayName(FK), RequestorIdentityTypeDisplayName(FK), RequestorStatusDisplayName(FK) |
용어집 용어 | 용어집 용어집 용어의 용어집 용어, 설명 및 전체 상태 대한 정보는 이 표에 저장됩니다. | 용어집TermId(UniqueId), ParentGlossaryTermId(FK), CreatedByUserId(FK), LastModifiedByUserId(FK) |
용어집 용어집 용어 비즈니스 도메인 할당 | 용어집 용어집 용어 거버넌스 도메인 할당 및 상태에 대한 정보는 이 표에 저장됩니다. | 용어집TermId(FK), BusinessDomainId(FK), AssignedByUserId(FK), 용어집TermStatusId(FK), CreatedByUserId(FK), LastUpdatedByUserId(FK) |
용어집 용어 데이터 제품 할당 | 용어집 용어 데이터 제품 할당에 대한 정보는 이 표에 저장됩니다. | 용어집TermId(FK), DataProductId(FK), AssignedByUserId(FK), 용어집TermStatusId(FK), CreatedByUserId(FK), LastUpdatedByUserId(FK) |
정책 집합 승인자 | 정책 집합 및 승인자 정보는 이 테이블에 저장됩니다. | SubscriberRequestId(FK), AccessPolicySetId(FK), ApproverUserId(FK) |
관계 | 원본 유형 및 대상 정보에 대한 정보는 이 테이블에 저장됩니다. | AccountId, SourceId, TargetId |
Fabric OneLake에 Microsoft Purview 카탈로그 메타데이터 구독
분석을 위해 Microsoft Purview의 데이터 거버넌스 메타데이터를 구독하고 다음 단계에 따라 인사이트를 얻을 수 있습니다.
왼쪽 창에서 설정을 선택하고 통합 카탈로그 선택한 다음 솔루션 통합을 선택합니다.
편집을 선택합니다.
스토리지 유형을 추가하고 설정을 사용하도록 설정합니다.
위치 URL 추가(예:
https://onelake.dfs.fabric.microsoft.com/workspace name/lakehouse name/Files/purviewmetadata
)- 속성을 선택하여 URL을 복사합니다.
- 속성 페이지에서 URL을 복사합니다.
URL 끝에 폴더 이름 추가 - 예: /DEH(스크린샷 참조)
패브릭 작업 영역에 Microsoft Purview MSI(서비스 ID 관리)에 대한 기여자 액세스 권한을 부여합니다.
연결을 테스트합니다.
저장을 선택하여 구성을 저장하여 OneLake 작업 영역에 Purview 메타데이터를 게시합니다.
OneLake에서 의미 체계 모델 만들기
데이터 및 분석 컨텍스트의 의미 체계 모델은 특정 도메인 내에서 의미, 관계 및 규칙을 정의하는 데이터의 구조화된 표현을 나타냅니다. 특히 BI(비즈니스 인텔리전스) 및 분석 플랫폼의 컨텍스트에서 보다 직관적이고 쉽게 액세스할 수 있도록 하여 사용자가 복잡한 데이터를 이해하고 상호 작용하는 데 도움이 되는 추상화 계층을 제공합니다. 보고서를 작성하려면 항상 의미 체계 모델이 필요합니다. 웨어하우스 내에서 사용자는 기본 Power BI 의미 체계 모델에 테이블 또는 뷰인 웨어하우스 개체를 추가할 수 있습니다. 계층 및 설명과 같은 다른 의미 체계 모델링 속성을 추가할 수도 있습니다. 그런 다음 이러한 속성을 사용하여 Power BI 의미 체계 모델의 테이블을 만듭니다. 사용자는 기본 Power BI 의미 체계 모델에서 개체를 제거할 수도 있습니다.
Microsoft Purview 데이터 거버넌스 메타데이터 도메인 모델에서 의미 체계 모델을 만들려면 다음을 수행합니다.
패브릭 작업 영역에서 Lakehouse를 엽니다.
델타 테이블에 도메인 모델 파일 게시
- 줄임표 단추 선택(...)
- **테이블 > 로 로드 새 테이블 선택
- 미리 채워진 새 테이블 이름
- 파일 형식 parquet 선택
바로 가기를 사용하여 OneLake 및 OneLake 내에서 도메인 모델을 바로 가기할 수도 있습니다.
- 테이블의 줄임표 단추(...) 선택
- 새 바로 가기를 선택하고 새 바로 가기 원본 페이지에서 Microsoft OneLake를 선택합니다.
- 바로 가기로 도메인 모델 테이블 선택
수동으로 또는 바로 가기를 통해 델타 테이블에 모든 파일을 게시한 후에는 의미 체계 모델에 델타 테이블을 추가할 수 있습니다.
- Lakehouse 페이지에서 SQL 분석 엔드포인트 페이지로 전환합니다.
- SQL 분석 엔드포인트 페이지의 왼쪽 위 모서리에서 보고를 선택합니다.
- 기본 의미 체계 모델 관리를 선택합니다.
- 보고용 의미 체계 모델에 추가할 dbo > 테이블의 테이블을 선택합니다.
테이블 또는 뷰와 같은 개체를 기본 Power BI 의미 체계 모델에 추가하려면 의미 체계 모델 자동 업데이트를 선택합니다.
참고
관계 키를 사용하여 의미 체계 모델 관계를 수동으로 그려야 합니다.
Microsoft Purview 카탈로그 메타데이터를 AdlsG2 스토리지에 구독
다음 단계에 따라 Microsoft Purview의 데이터 거버넌스 메타데이터를 구독하여 분석을 위해 AdlsG2 스토리지에 게시하고 저장하고 인사이트를 얻을 수 있습니다.
왼쪽 창에서 설정을 선택하고 통합 카탈로그 선택한 다음 솔루션 통합을 선택합니다.
편집을 선택합니다.
스토리지 유형을 선택합니다. 및 설정을 사용하도록 설정했습니다 .
위치 URL을 추가합니다. AdlsG2 경로 + "/(컨테이너 이름)"이어야 합니다.
- portal.azure.com 이동
- adlsg2 스토리지 선택(홈 > adlsg2)
- 설정>엔드포인트로 이동하여 데이터 레이크 스토리지의 기본 엔드포인트를 선택합니다.
AdlsG2 컨테이너에 Microsoft Purview MSI(서비스 ID 관리)에 대한 Storage Blob 데이터 기여자 액세스 권한 부여
연결을 테스트합니다.
저장 탭을 선택하여 구성을 저장하여 adlsg2 스토리지에 도메인 모델을 게시합니다.
게시된 모델 및 데이터 검토
열기 portal.azure.com
adlsg2 스토리지 선택
purview에서 adlsg2 엔드포인트를 사용하여 추가한 컨테이너 선택
컨테이너에 게시된 델타 parquet 파일 목록을 찾아봅니다.
게시된 모델 및 메타데이터를 찾아봅니다(아래 이미지 참조).
Power BI 보고서 만들기
Power BI는 기본적으로 전체 패브릭 환경에 통합됩니다. 이 네이티브 통합에는 가장 성능이 좋은 쿼리 및 보고 환경을 제공하기 위해 레이크하우스의 데이터에 액세스하기 위한 DirectLake라는 고유 모드가 포함되어 있습니다. DirectLake는 Power BI에서 매우 큰 의미 체계 모델을 분석할 수 있는 획기적인 새로운 기능입니다. DirectLake를 사용하면 데이터 웨어하우스 또는 레이크하우스 엔드포인트를 쿼리할 필요 없이 Power BI 의미 체계 모델로 데이터를 가져오거나 복제할 필요 없이 데이터 레이크에서 직접 parquet 형식의 파일을 로드합니다. DirectLake는 데이터 레이크의 데이터를 분석할 준비가 된 Power BI 엔진으로 바로 로드하는 빠른 경로입니다.
기존 DirectQuery 모드에서 Power BI 엔진은 각 쿼리 실행에 대해 원본의 데이터를 직접 쿼리하며 쿼리 성능은 데이터 검색 속도에 따라 달라집니다. DirectQuery는 데이터를 복사할 필요가 없으므로 원본의 변경 내용이 쿼리 결과에 즉시 반영되도록 합니다.
자세한 내용은 Microsoft Fabric에서 Power BI 보고서를 만드는 방법 지침을 따르세요.
중요
- 기본 새로 고침 주기는 24시간마다입니다.
- Purview MSI는 패브릭 workapce에 게시하기 위해 Microsoft Purview 메타데이터를 구독하는 경우 패브릭 작업 영역에 기여자 액세스해야 합니다.
- Purview MSI는 adlsg2 컨테이너에 게시하기 위해 purview 메타데이터를 서브스크링하는 경우 Azure Data Lake Storage Gen2 대한 Storage Blob 데이터 기여자 액세스 권한이 필요합니다.
참고
- 데이터 새로 고침 작업 예약은 아직 지원되지 않습니다.
- vNet은 아직 지원되지 않습니다.