섹션 2: 데이터 설정 및 등록
검사에 사용할 수 있는 데이터 원본이 없는 경우 다음 단계에 따라 ADLS Gen2(Azure Data Lake Stroage) 예제를 완전히 배포할 수 있습니다.
팁
Microsoft Purview 계정과 동일한 테넌트에서 데이터 원본이 이미 있는 경우 이 섹션의 다음 부분으로 이동하여 자산을 검사합니다.
실제 데이터 자산에서 다양한 데이터 애플리케이션에 사용되는 다양한 시스템을 찾을 수 있습니다. 패브릭 및 Snowflake와 같은 보고 환경이 있습니다. 여기서 팀은 데이터 복사본을 사용하여 분석 솔루션을 빌드하고 보고서 및 대시보드에 전원을 공급합니다. 애플리케이션 팀 또는 고객이 프로세스 중에 내린 결정에 따라 데이터를 수집하거나 추가하는 비즈니스 프로세스를 완료하는 데 사용하는 운영 데이터 시스템이 있습니다.
보다 현실적인 데이터 자산을 만들기 위해 카탈로그에 많은 데이터 원본을 표시하는 것이 좋습니다. 이 데이터 원본은 회사에서 사용할 수 있는 다양한 데이터의 폭을 커버할 수 있습니다. 사용 사례에 필요한 데이터 형식은 보고서 및 대시보드가 필요한 비즈니스 사용자와 크게 다를 수 있으며, 분석가는 보고서를 작성하기 위해 준수된 차원과 팩트를 필요로 하며, 데이터 과학자 또는 데이터 엔지니어는 이러한 모든 데이터를 수집하는 시스템에서 직접 제공되는 원시 원본 데이터가 필요하며, 더 많은 사용자가 찾는 것의 중요성을 확인할 수 있도록 합니다. 동일한 위치에서 데이터를 이해하고 액세스합니다.
자산에 데이터를 추가하는 다른 자습서의 경우 다음 가이드를 따를 수 있습니다.
- 패브릭 레이크하우스 자습서 – 보고 환경의 기반을 제공합니다.
- Azure SQL 데이터베이스(샘플) – 운영 데이터 저장소의 잘 구조화된 예제를 제공합니다.
필수 구성 요소
- Azure의 구독: 오늘 Azure 무료 계정 만들기
- 테넌트용 Microsoft Entra ID: Microsoft Entra ID Governance
- Microsoft Purview 계정
- Microsoft Purview 계정에 대한 액세스 관리(Microsoft Purview 계정을 만든 경우 기본값입니다. 새 Microsoft Purview 포털 미리 보기의 권한 | Microsoft Learn)
- 모든 리소스; Microsoft Purview, 데이터 원본 및 Microsoft Entra ID 동일한 클라우드 테넌트여야 합니다.
데이터 자산을 설정하는 단계
스토리지 계정 만들기 및 채우기
- 이 가이드에 따라 스토리지 계정을 만듭니다. Azure Data Lake Storage Gen2
- 새 데이터 레이크에 대한 컨테이너를 만듭니다.
- 스토리지 계정의 개요 페이지로 이동합니다.
- 데이터 스토리지 섹션 아래에서 컨테이너 탭을 선택합니다.
- + 컨테이너 단추 선택
- 이름을 'bronze'로 지정하고 만들기 단추를 선택합니다.
- 다음 단계를 반복하여 'gold' 컨테이너 만들기
- data.gov 몇 가지 예제 CSV 데이터 다운로드: Covid-19 백신 접종 및 연령 그룹별 사례 추세, 미국
- 만든 스토리지 계정의 'bronze'라는 컨테이너에 CSV를 업로드합니다.
- 'bronze'라는 컨테이너를 선택하고 업로드 단추를 선택합니다.
- CSV를 저장한 위치를 찾아 서 covid-19_Vaccination_Case _Trends 파일을 선택합니다.
- 업로드를 선택합니다.
Azure Data Factory 만들기
이 단계에서는 medallion 데이터 레이크의 계층 간에 데이터가 이동하는 방법을 보여 줍니다. 데이터가 소비자가 사용할 것으로 예상되는 표준화된 형식인지 확인합니다. 이는 데이터 품질을 실행하기 위한 필수 조건 단계입니다.
이 가이드에 따라 Azure Data Factory 만들기: Azure Data Factory
이 Azure Data Factory 가이드: 매핑 데이터 흐름을 사용하여 데이터 변환을 사용하여 'bronze' 컨테이너의 CSV에서 델타 형식 테이블로 'gold' 컨테이너로 데이터 복사
만든 ADF 리소스의 개요 탭에서 시작 스튜디오 단추를 선택하여 Azure Portal ADF(Azure Data Factory) 환경을 엽니다.
ADF 스튜디오에서 작성자 탭을 선택합니다.
+ 단추를 선택하고 드롭다운 메뉴에서 데이터 흐름을 선택합니다.
데이터 흐름 이름을 'CSVtoDeltaC19VaxTrends'로 지정합니다.
빈 상자에서 원본 추가 를 선택합니다.
원본 설정을 다음으로 설정합니다.
- 출력 스트림 이름: 'C19csv'
- 설명: 비워 둡니다.
- 원본 유형: 인라인
- 인라인 데이터 세트 형식: 구분된 텍스트
- 연결된 서비스: csv를 저장한 데이터 레이크 선택
원본 옵션을 다음으로 설정합니다.
- 파일 모드: 파일
- 파일 경로: /bronze/ Covid-19_Vaccination_Case _Trends
- 파일을 찾을 수 없음 허용: 선택 취소된 상태로 둡니다.
- 데이터 캡처 변경: 선택 취소된 상태로 둡니다.
- 압축 유형: 없음
- 인코딩: 기본값(UTF-8)
- 열 구분 기호: 쉼표(,)
- 행 구분 기호: Default(\r, \n 또는\r\n)
- 따옴표 문자: 큰따옴표(")
- 이스케이프 문자: 백슬래시()
- 첫 번째 행을 헤더로: CHECKED
- 나머지를 기본값으로 둡니다.
만든 원본 옆에 있는 작은 + 옆을 선택하고 싱크를 선택합니다.
데이터를 'bronze'의 csv에서 'gold'의 델타 테이블로 이동하기 위해 저장할 데이터의 형식과 위치가 있는 싱크를 만듭니다.
- 싱크 값을 설정합니다(지정하지 않는 한 모든 설정을 기본값으로 둡니다.)
- 싱크 형식: 인라인
- 인라인 데이터 세트 형식: Delta
- 연결된 서비스: 다른 컨테이너에 저장되므로 원본에 사용된 것과 동일한 데이터 레이크입니다.
설정 값을 설정합니다(지정하지 않는 한 모든 설정을 기본값으로 둡니다.)
- 폴더 경로: gold/Covid19 백신 및 사례 추세
이 이름은 데이터를 저장하고 선택할 수 없도록 하는 방법이기 때문에 값을 입력해야 합니다.
유효성 검사를 선택하고 데이터 흐름을 확인하고 오류를 해결하는 지침을 제공합니다.
모두 게시를 선택합니다.
드롭 + 다운 메뉴에서 단추를 선택하고 파이프라인을 선택합니다.
파이프라인 이름을 'CSV에서 Delta C19 Vax 추세로' 지정
이전 단계 CSV에서 Delta(C19VaxTrends)로 만든 데이터 흐름을 선택하고 열려 있는 파이프라인 탭에서 끌어서 놓습니다.
유효성 검사 선택
게시 선택
디버그(활동 런타임 사용)를 선택하여 파이프라인을 실행합니다.
팁
델타 형식에 대한 공백 또는 부적절한 문자에 대한 오류가 발생하면 다운로드한 CSV를 열고 수정합니다. 그런 다음, 브론즈 영역에서 CSV를 다시 업로드하고 덮어씁니다. 그런 다음 파이프라인을 다시 실행합니다.
데이터 레이크에서 골드 컨테이너로 이동하면 파이프라인 중에 생성된 새 Delta 테이블이 표시됩니다.
자산 검사
데이터 자산을 Microsoft Purview 데이터 맵 검사하지 않은 경우 다음 단계에 따라 데이터 맵을 채울 수 있습니다.
데이터 자산의 원본을 검사하면 해당 원본에서 데이터 자산(테이블, 파일, 폴더, 보고서 등)의 메타데이터가 자동으로 수집됩니다. 데이터 원본을 등록하고 검사를 만들어 카탈로그에 표시되는 원본 및 자산에 대한 기술 소유권을 설정하고 Microsoft Purview에서 어떤 메타데이터에 액세스할 수 있는지 제어할 수 있는지 확인합니다. 도메인 수준에서 원본 및 자산을 등록하고 저장하면 가장 높은 수준의 액세스 계층 구조에 저장됩니다. 일반적으로 자산 메타데이터를 검사하고 해당 데이터에 대한 올바른 액세스 계층 구조를 설정하는 일부 컬렉션을 만드는 것이 가장 좋습니다.
-
데이터 레이크 또는 기타 데이터 저장소에 Microsoft Purview MSI(관리 ID)에 대한 읽기 권한자 액세스를 제공합니다.
팁
MSI는 Microsoft Purview instance 계정 이름입니다.
Microsoft Fabric 또는 SQL을 사용하도록 선택한 경우 다음 가이드를 사용하여 액세스를 제공할 수 있습니다.
데이터 레이크 등록 및 자산 검사
도메인 탭의 Microsoft Purview 데이터 맵 도메인에 대한 역할 할당을 선택합니다(Microsoft Purview 계정의 이름이 됩니다).
- 자신을 데이터 원본 관리자 및 데이터 큐레이터로 도메인에 추가합니다.
- 역할 데이터 원본 관리자 옆에 있는 사람 아이콘을 선택합니다.
- 이름을 Microsoft Entra ID 그대로 검색합니다(Microsoft Entra ID 그대로 철자가 지정된 전체 이름을 입력해야 할 수 있음).
- 확인을 선택합니다.
- 데이터 큐레이터에 대해 다음 단계를 반복합니다.
- 자신을 데이터 원본 관리자 및 데이터 큐레이터로 도메인에 추가합니다.
데이터 레이크를 등록합니다.
- 데이터 원본 탭을 선택합니다.
- 등록을 선택하세요.
- Azure Data Lake Storage Gen2 스토리지 유형을 선택합니다.
연결할 세부 정보를 제공합니다.
- 구독(선택 사항)
- 데이터 원본 이름(ADLS Gen2 원본의 이름이 됩니다.)
- 자산 메타데이터를 저장해야 하는 컬렉션(선택 사항)
- 등록 선택
데이터 원본 등록이 완료되면 검사를 구성할 수 있습니다. 등록은 Microsoft Purview가 데이터 원본에 연결되어 있고 소유권을 위해 올바른 컬렉션에 배치되었음을 나타냅니다. 그러면 검사에서 원본에서 메타데이터를 읽고 데이터 맵의 자산을 채웁니다.
데이터 원본 탭에 등록한 원본 선택
새 검사를 선택하고 세부 정보를 제공합니다.
- 이 검사에 기본 통합 런타임 사용
- 자격 증명은 Microsoft Purview MSI(시스템)여야 합니다.
- 검색 수준은 자동 검색입니다.
- 컬렉션을 선택하거나 도메인을 사용합니다(컬렉션은 데이터 원본이 등록된 컬렉션 또는 자식 컬렉션이어야 합니다).
- 계속을 선택합니다.
팁
이 시점에서 Microsoft Purview는 연결을 테스트하여 검사를 수행할 수 있는지 확인합니다. 데이터 원본에 대한 Microsoft Purview MSI 판독기 액세스 권한을 부여하지 않은 경우 실패합니다. 데이터 원본 소유자가 아니거나 기여자 사용자 액세스 권한이 있는 경우 연결을 만들 수 있는 권한 부여가 있으므로 검색이 실패합니다.
이제 자습서의 빌드 데이터 섹션에 델타 테이블을 배치한 컨테이너 'gold'만 선택합니다. 이렇게 하면 데이터 저장소에 있는 다른 데이터 자산을 검색할 수 없습니다.
- 금 옆에 파란색 검사 하나만 있어야 전체 원본을 검사하고 사용할 자산 등을 만들 수 있으므로 모든 항목 옆에 검사를 남길 수 있습니다.
- 계속을 선택합니다 .
검사 규칙 집합 선택 화면에서 기본 검사 규칙 집합을 사용해야 합니다.
계속을 선택합니다 .
검사 트리거 설정에서 데이터 자산을 레이크의 골드 컨테이너에 계속 추가할 때 데이터 맵을 계속 채우도록 검사 빈도를 설정합니다. 한 번을 선택합니다.
계속을 선택합니다.
저장 및 실행을 선택합니다. 그러면 데이터 레이크의 골드 컨테이너에서만 메타데이터를 읽고 다음 섹션의 Microsoft Purview 통합 카탈로그 사용할 테이블을 채우는 검사가 만들어집니다. 저장만 선택하면 검색이 실행되지 않으며 자산이 표시되지 않습니다. 검색이 실행되면 마지막 실행 상태 Queued를 사용하여 만든 검색이 표시됩니다. 검사 읽기가 완료되면 다음 섹션에 대한 자산이 준비됩니다. 원본에 있는 자산 수에 따라 몇 분 또는 몇 시간이 걸릴 수 있습니다.