Microsoft synapse 서버리스 및 데이터 웨어하우스에 대한 데이터 품질
Azure Synapse Analytics는 데이터 웨어하우스 및 빅 데이터 시스템 전반에서 인사이트 시간을 가속화하는 엔터프라이즈 분석 서비스입니다. 엔터프라이즈 데이터 웨어하우징, 빅 데이터를 위한 Apache Spark 기술 및 로그 및 시계열 분석을 위한 Azure Data Explorer 사용하는 최고의 SQL 기술을 결합합니다.
Azure Synapse 엔터프라이즈 데이터 웨어하우징 및 빅 데이터 분석을 결합하는 무제한 분석 서비스입니다. 서버리스 또는 전용 리소스를 사용하여 용어에 대한 데이터를 자유롭게 쿼리할 수 있습니다. 대규모로 패브릭 설명서를 Azure Synapse 검토하세요.
전용 Synapse Data Warehouse(DWH) 테이블 EMPLOYEE의 instance SynapseSalesDelta 테이블이 있는 서버리스 데이터베이스(SQL_ON_DEMAND)가 있는 synapse 작업 영역의 예입니다.
검사한 후에는 Microsoft Purview에서 자산을 사용할 수 있습니다. 다음은 Synapse Analytics Dedicated instance 대한 직원 테이블의 예입니다.
Azure Synapse 분석 전용(Data Warehouse)
데이터 맵 검사 설정
Azure Synapse 분석 전용(Data Warehouse)을 검사하려면 설명서를 따르고전용 DWH instance 필요한 MI 권한을 부여하려면 설명서를 따릅니다.
검사한 후에는 Microsoft Purview 카탈로그에서 자산을 사용할 수 있습니다. 다음은 Synapse Analytics Dedicated instance 대한 직원 테이블의 예입니다.
synapse 전용 데이터 웨어하우스에 대한 연결 설정
이 시점에서 검사된 자산은 카탈로그화 및 거버넌스에 사용할 준비가 되어 있습니다. 검사된 자산을 거버넌스 도메인 Sele의 데이터 제품에 연결합니다. 데이터 품질 탭에서 새 Azure SQL 데이터베이스 연결: 수동으로 입력한 데이터베이스 이름 가져오기를 추가합니다.
데이터 품질 > 거버넌스 도메인 > 관리 탭을 선택하여 연결을 만듭니다.
연결 페이지에서 연결을 구성합니다.
- 연결 이름 및 설명을 추가합니다.
- 원본 유형 Azure Synapse Analytics를 선택합니다.
- Azure 구독을 선택합니다.
- 작업 영역 이름을 선택합니다.
- 전용 SQL 엔드포인트를 선택합니다.
- 서버리스 SQL 엔드포인트를 선택합니다.
- 엔드포인트 유형을 선택합니다.
- 데이터베이스를 선택합니다.
- MSI를 자격 증명으로 추가합니다.
연결을 테스트합니다. 데이터 원본 연결을 구성하고 성공적으로 테스트한 후에는 데이터 프로파일링 및 데이터 품질 검사를 구성하고 실행할 수 있습니다.
Synapse 데이터 원본이 프라이빗 엔드포인트 뒤에 있는 경우 관리형 vNet을 사용하도록 설정해야 합니다. 관리되는 vNet을 구성하는 방법을 설명합니다.
중요
데이터 품질 관리자는 데이터 품질 연결을 설정하기 위해 synapse 전용 데이터 웨어하우스에 대한 읽기 전용 액세스 권한이 필요합니다. 관리형 vNet 설정의 경우 연결을 테스트할 수 없습니다.
synapse 전용 데이터 웨어하우스의 데이터에 대한 프로파일링 및 데이터 품질 검사
연결 설정이 성공적으로 완료되면 synapse 웨어하우스에서 데이터를 프로파일하고, 만들고, 적용하고, 데이터의 DQ 검사를 실행할 수 있습니다. 아래 문서에 설명된 단계별 지침을 따릅니다.
중요
- 쿼리의 성능과 성공적인 실행은 고객이 전용 데이터베이스 인스턴스에 대해 갖는 DW 구성에 따라 달라집니다.
- 각 DQ 평가 작업 또는 그 문제에 대한 다른 DQ 작업은 전용 DW에 대한 연결을 유도하고 instance 프로비전되거나 동시성 제한에 실패하는 경우 실패할 수 있습니다. 고객은 DW 구성을 알고 있어야 합니다. 동시성은 시간에 instance 대해 매우 어려운 한계를 가지고 있습니다.
- 동시성 제한으로 인해 작업이 종료될 수 있습니다. DW 제한(예: 1000 DW)은 쿼리를 실행할 수 있는 기능을 제공합니다.
- vNet 지원은 GA 등급 지원을 통해 미리 보기로 제공됩니다.
Azure Synapse Analytics 서버리스
데이터 맵 검사 설정
Azure Synapse Analytics Serverless를 검사하려면 설명서를 따르고전용 DWH instance 필요한 MI 권한을 부여하려면 설명서를 따릅니다. 검사한 후에는 서버리스 자산을 Microsoft Purview 카탈로그에서 사용할 수 있습니다.
synapse 서버리스에 대한 연결 설정
이 시점에서 검사된 자산은 카탈로그화 및 거버넌스에 사용할 준비가 되어 있습니다. 검사된 자산을 거버넌스 도메인 Sele의 데이터 제품에 연결합니다. 데이터 품질에서 새 Azure SQL 데이터베이스 연결: 수동으로 입력한 데이터베이스 이름 가져오기를 추가합니다.
데이터 품질>거버넌스 도메인>관리 탭을 선택하여 연결을 만듭니다.
연결 페이지에서 연결을 구성합니다.
- 연결 이름 및 설명을 추가합니다.
- 원본 유형 Azure Synapse Analytics를 선택합니다.
- Azure 구독을 선택합니다.
- 작업 영역 이름을 선택합니다.
- 전용 SQL 엔드포인트를 선택합니다.
- 서버리스 SQL 엔드포인트를 선택합니다.
- 엔드포인트 유형을 선택합니다.
- 데이터베이스를 선택합니다.
- MSI를 자격 증명으로 추가합니다.
연결을 테스트합니다. 데이터 원본 연결을 구성하고 성공적으로 테스트한 후에는 데이터 프로파일링 및 데이터 품질 검사를 구성하고 실행할 수 있습니다.
Synapse 데이터 원본이 프라이빗 엔드포인트 뒤에 있는 경우 관리형 vNet을 사용하도록 설정해야 합니다. 관리되는 vNet을 구성하는 방법을 설명합니다.
중요
- 데이터 품질 관리자는 데이터 품질 연결을 설정하기 위해 synapse 전용 데이터 웨어하우스에 대한 읽기 전용 액세스 권한이 필요합니다.
- Synapse 서버리스 설정에서 외부 테이블은 ADLS Gen2에 저장된 델타 형식의 데이터를 가리킵니다.
- vNet 지원은 제어된 미리 보기에 있습니다. 제어된 미리 보기에 대한 테넌트 허용 목록을 보려면 Purview 영업 팀에 문의하세요.
- Synapse Connector는 sql.azuresynapse.net 검색하고 지원합니다. Data Mmap 검사에서 생성된 FQN(정규화된 이름)에 database.windows.net 포함된 경우 DQ 검사에 대한 Synapse 연결이 실패합니다.
synapse 서버리스의 데이터에 대한 프로파일링 및 DQ(데이터 품질) 검사
연결 설정이 성공적으로 완료되면 synapse 웨어하우스에서 데이터를 프로파일하고, 만들고, 적용하고, DQ(데이터 품질) 검사를 실행할 수 있습니다. 아래 문서에 설명된 단계별 지침을 따릅니다.
중요
- DQ 평가, 백그라운드에서 Spark에서 프로파일링 실행, 고객은 각 Spark 노드에 연결 SPID가 있는 여러 연결을 갖게 되므로 DW 제한을 초과하여 사용/예약된 경우 DWH가 현재 쿼리 제한으로 실행되어 오류가 발생할 수 있습니다. 그러나 Azure Synapse 서버리스 SQL 테이블의 경우 - 이러한 동시성 제한이 적용되지 않습니다. 고객이 ADLS Gen2 instance 사용하는 서버리스 델타 parquet 최적화에 전적으로 의존합니다. 엔진은 Databricks 서버리스 DW가 모두 DELTA 형식 테이블과 같은 외부 레이크하우스 원본에서 작동하는 것을 밀접하게 공명하는 것으로 간주될 수 있습니다.