다음을 통해 공유


데이터 랜딩 존

데이터 랜딩 존은 가상 네트워크 피어링 또는 프라이빗 엔드포인트를 통해 데이터 관리 랜딩 존에 연결됩니다. 각 데이터 랜딩 존은 Azure 랜딩 존 아키텍처와 관련된 랜딩 존 간주됩니다.

중요하다

데이터 랜딩 존을 프로비전하기 전에 DevOps 및 CI/CD 운영 모델이 설치되어 있고 데이터 관리 랜딩 존이 배포되었는지 확인합니다.

각 데이터 랜딩 존에는 서비스 데이터 통합 및 포함된 데이터 애플리케이션에 대한 민첩성을 가능하게 하는 여러 계층이 있습니다. 데이터 랜딩 존이 데이터 수집 및 분석을 시작할 수 있도록 하는 표준 서비스 집합을 사용하여 새 데이터 랜딩 존을 배포할 수 있습니다.

데이터 랜딩 존과 연결된 일반적인 Azure 구독의 구조는 다음과 같습니다.

필수 리소스 그룹
Platform 서비스 계층
핵심 서비스
데이터 애플리케이션 선택적
보고 및 시각화 선택적

메모

Core 서비스 계층은 필수로 표시되어 있지만 이 문서에 포함된 모든 리소스 그룹 및 서비스가 데이터 랜딩 존에 필요한 것은 아닙니다.

데이터 랜딩 존 아키텍처

데이터 랜딩 존 아키텍처는 각 리소스 그룹에 포함된 계층, 해당 리소스 그룹 및 서비스를 보여 줍니다. 이 아키텍처는 데이터 랜딩 존과 연결된 모든 그룹 및 역할의 개요와 컨트롤 및 데이터 평면에 대한 액세스 범위를 제공합니다. 또한 아키텍처는 각 계층이 운영 모델 책임과 어떻게 일치하는지 보여 줍니다.

데이터 랜딩 존 아키텍처의 다이어그램입니다.

데이터 랜딩 존을 배포하기 전에 고려할 초기 데이터 랜딩 존 수를배포하려는지 확인합니다.

플랫폼 서비스

플랫폼 서비스 계층에는 클라우드 규모 분석의 맥락에서 데이터 랜딩 존과의 연결성과 가시성을 제공하기 위한 필수 서비스가 포함되어 있습니다. 다음 표에서는 권장되는 리소스 그룹을 나열합니다.

리소스 그룹 필수 묘사
network-rg 네트워킹
security-rg 보안 및 모니터링

네트워킹

네트워크 리소스 그룹에는 Azure Virtual Networks, NSG(네트워크 보안 그룹) 및 경로 테이블포함한 연결 서비스가 포함됩니다. 이러한 모든 서비스는 단일 리소스 그룹에 배포됩니다.

데이터 랜딩 존의 가상 네트워크 는 데이터 관리 랜딩 존의 가상 네트워크연결 구독의 가상 네트워크와 자동으로 피어링됩니다.

보안 및 모니터링

보안 및 모니터링 리소스 그룹에는 서비스 원격 분석 수집, 모니터링 기준 및 경고 정의, 서비스에 대한 정책 적용 및 검사를 위해 Azure Monitor클라우드용 Microsoft Defender가 포함됩니다.

핵심 서비스

핵심 서비스 계층에는 클라우드 규모 분석 컨텍스트 내에서 데이터 랜딩 영역을 설정하는 데 필수적인 기본 서비스가 포함됩니다. 다음 표에서는 배포하는 모든 데이터 랜딩 존에서 사용 가능한 서비스의 표준 제품군을 제공하는 리소스 그룹을 나열합니다.

리소스 그룹 필수 묘사
storage-rg 데이터 레이크 서비스
runtimes-rg 공유 통합 런타임
mgmt-rg CI/CD 에이전트
external-data-rg 외부 데이터 스토리지
data-ingestion-rg 선택적 공유 데이터 수집 서비스
shared-applications-rg 선택적 공유 애플리케이션(Synapse 또는 Databricks)

보관

다이어그램에 표시된 것처럼 Azure Data Lake Storage Gen2 계정 3개가 단일 데이터 레이크 서비스 리소스 그룹 에 구성됩니다. 여러 단계에서 변환된 데이터는 데이터 랜딩 존의 데이터 레이크 중 하나에 저장됩니다. 데이터는 분석, 데이터 과학 및 시각화 팀에서 사용할 수 있습니다.

데이터 레이크 계층은 기술 및 공급업체에 따라 다른 용어를 사용합니다. 이 표에서는 클라우드 규모 분석에 용어를 적용하는 방법에 대한 지침을 제공합니다.

클라우드 수준 분석 Delta Lake 기타 용어 묘사
날것의 청동 착륙 및 적합성 데이터 수집 테이블
강화된 표준화 영역 세련된 테이블. 레코드 시스템에서 사용 가능한 전체 엔터티, 사용 가능한 레코드 집합을 저장했습니다.
큐레이팅됨 제품 영역 기능 또는 집계된 테이블입니다. 애플리케이션, 팀 및 사용자가 데이터 제품을 사용할 수 있는 기본 영역입니다.
발달 -- 개발 영역 분석 샌드박스와 제품 개발 영역으로 구성된 데이터 엔지니어 및 과학자를 위한 위치입니다.

메모

이전 다이어그램에서 각 데이터 랜딩 존에는 세 개의 데이터 레이크 스토리지 계정이 있습니다. 그러나 요구 사항에 따라 원시, 보강 및 큐레이팅된 계층을 하나의 스토리지 계정으로 통합하고 데이터 소비자가 다른 유용한 데이터 제품을 가져올 수 있도록 '작업 영역'이라는 다른 스토리지 계정을 유지 관리할 수 있습니다.

자세한 내용은 다음을 참조하세요.

공유 통합 런타임

Azure Data Factory 및 Azure Synapse Analytics 파이프라인은 IR(통합 런타임)을 사용하여 피어되거나 격리된 네트워크의 데이터 원본에 안전하게 액세스합니다. 공유된 IR는 공유된 통합 런타임 리소스 그룹의 가상 머신(또는 Azure Virtual Machine Scale Sets)에 배포되어야 합니다.

공유 리소스 그룹을 사용하도록 설정하려면 다음을 수행합니다.

  • 데이터 랜딩 존의 공유 통합 리소스 그룹에 하나 이상의 Azure Data Factory를 만듭니다. 데이터 파이프라인이 아닌 공유 자체 호스팅 통합 런타임 연결에만 사용합니다.
  • 가상 머신에서 자체 호스팅 통합 런타임 만들고 구성합니다.
  • 자체 호스팅 통합 런타임을 데이터 랜딩 존의 Azure 데이터 팩터리에 연결합니다.
  • PowerShell 스크립트를 사용하여 주기적으로 자체 호스팅 통합 런타임을 업데이트합니다.

메모

배포는 자체 호스팅 통합 런타임을 사용하는 단일 가상 머신 배포를 설명합니다. 자체 호스팅 통합 런타임을 온-프레미스 또는 Azure의 여러 가상 머신과 연결할 수 있습니다. 이러한 머신을 노드라고 하며 자체 호스팅 통합 런타임과 연결된 노드를 최대 4개까지 포함할 수 있습니다. 여러 노드를 사용하는 경우의 이점은 다음과 같습니다.

  • 데이터 애플리케이션이나 클라우드 데이터 통합의 오케스트레이션에서 더 이상 단일 실패 지점이 되지 않도록, 자체 호스팅 통합 런타임의 고가용성을 보장합니다.
  • 온-프레미스와 클라우드 데이터 서비스 간에 데이터를 이동하는 동안 성능 및 처리량이 향상되었습니다. 성능 비교에 대한 자세한 정보를에서 확인하십시오.

다운로드 센터 에서 자체 호스팅 통합 런타임 소프트웨어를 설치하여 여러 노드를 연관시킬 수 있습니다. 그런 다음 자습서설명한 대로 New-AzDataFactoryV2IntegrationRuntimeKey cmdlet에서 가져온 인증 키 중 하나를 사용하여 등록합니다.

자세한 정보는 Azure Data Factory 고가용성 및 확장성에 자세히 설명되어 있습니다.

중요하다

공유 통합 런타임을 데이터 원본에 최대한 가깝게 배포합니다. 가상 머신이 필요한 데이터 원본에 연결되어 있는 경우 데이터 랜딩 존, 타사 클라우드 또는 프라이빗 클라우드에 통합 런타임을 배포할 수 있습니다.

경영

CI/CD 에이전트는 가상 머신에서 실행되며, 데이터 애플리케이션과 데이터 착륙 영역 변경 사항을 포함하여 소스 코드 리포지토리의 아티팩트 배포를 지원합니다.

자세한 내용은 Azure Pipeline 에이전트을 참조하세요.

외부 스토리지

파트너 데이터 게시자는 데이터 애플리케이션 팀이 데이터를 데이터 레이크로 끌어올 수 있도록 플랫폼에 데이터를 배치해야 합니다. 또한 나머지 데이터 랜딩 존에 적용되는 연결 또는 인증 요구 사항을 지원할 수 없는 내부 또는 외부 데이터 원본을 가질 수도 있습니다. 별도의 스토리지 계정을 사용하여 데이터를 수신하는 것이 권장됩니다. 이후, 공유 통합 런타임 또는 유사한 수집 프로세스를 통해 이를 처리 파이프라인으로 가져와야 합니다. 다음 다이어그램에서 볼 수 있듯이 업로드 수집 스토리지 리소스 그룹을 통해 이러한 사용 사례에 대한 Blob 스토어를 설정할 수 있습니다.

데이터 애플리케이션 팀이 저장소 블롭을 요청합니다. 이러한 요청은 데이터 랜딩 존 운영 팀의 승인을 받습니다. 원시 데이터 스토리지에 수집된 후 원본 스토리지 Blob에서 데이터를 삭제해야 합니다.

중요하다

Azure Storage Blob은 필요에 따라 기반으로 프로비전되므로 처음에는 각 데이터 착륙 구역에 빈 스토리지 서비스 리소스 그룹을 배포해야 합니다.

데이터 수집

이 리소스 그룹은 선택 사항이며 랜딩 존을 배포하는 것을 방지하지 않습니다. 연결 문자열, 데이터 전송 경로 및 수집 일정을 포함하여 등록된 메타데이터를 기반으로 데이터를 자동으로 수집하는 데이터 중립적 수집 엔진이 있거나 개발 중인 경우에 적용됩니다.

수집 및 처리 리소스 그룹에는 이러한 종류의 프레임워크에 대한 주요 서비스가 있습니다.

Azure Data Factory에서 사용하는 메타데이터를 보유하도록 Azure SQL Database 인스턴스를 배포합니다. 자동화된 수집 서비스와 관련된 비밀을 저장하도록 Azure Key Vault를 프로비전합니다. 이러한 비밀에는 다음이 포함될 수 있습니다.

  • Azure Data Factory 메타스토어 자격 증명
  • 자동화된 데이터 수집 프로세스에 대한 서비스 주체 자격 증명

자세한 내용은 자동화된 수집 프레임워크가 Azure클라우드 규모 분석을 지원하는 방법을 참조하세요.

이 리소스 그룹에 포함된 서비스는 다음과 같습니다.

서비스 필수 지침
Azure Data Factory Azure Data Factory는 데이터에 구애받지 않는 데이터 수집을 위한 오케스트레이션 엔진입니다.
Azure SQL DB Azure SQL DB는 Azure Data Factory의 메타스토어입니다.
Event Hubs 또는 IoT Hub 선택적 Event Hubs 또는 IoT Hub는 Databricks 엔지니어링 작업 공간을 통한 일괄 처리 및 스트리밍 처리와 함께 Event Hubs에 실시간 스트리밍을 제공할 수 있습니다.
Azure Databricks 선택적 데이터 중립적 수집 엔진에서 사용하기 위해 Azure Databricks 또는 Azure Synapse Spark를 배포할 수 있습니다.
Azure Synapse 선택적 데이터에 구애받지 않는 수집 엔진과 함께 사용할 수 있도록 Azure Databricks 또는 Azure Synapse Spark를 배포할 수 있습니다.

공유 애플리케이션

이 선택적 리소스 그룹은 이 데이터 랜딩 존에서 데이터 애플리케이션을 빌드하는 모든 팀에서 사용할 수 있는 공유 서비스 집합이 필요한 경우에 사용됩니다. 예제 사용은 다음과 같습니다.

  • 동일한 데이터 랜딩 존(또는 지역)에서 생성된 다른 모든 Databricks 작업 공간에 대해 공유 메타스토어로 사용되는 Azure Databricks 작업 공간
  • 사용자가 격리된 스토리지 계정에서 쿼리할 수 있도록 서버리스 SQL 풀을 사용하는 공유 Azure Synapse Analytics 인스턴스입니다.

메모

Azure Databricks는 Unity 카탈로그를 사용하여 Databricks 작업 영역 전반의 메타스토어에 대한 액세스 및 가시성을 제어합니다. Unity 카탈로그는 테넌트 수준에서 사용하도록 설정되지만 메타스토어는 Azure 지역에 맞춰집니다. 실제로 이는 지정된 Azure 지역의 모든 Unity 카탈로그 지원 Databricks 작업 영역이 동일한 Metastore에 등록해야 한다는 것을 의미합니다. 자세한 내용은 Unity 카탈로그 모범 사례참조하세요.

클라우드 규모 분석 모범 사례를 따라 Azure Databricks를 통합합니다.

데이터 애플리케이션

각 데이터 랜딩 존에는 여러 데이터 애플리케이션이 있을 수 있습니다. 다양한 원본에서 데이터를 수집하여 이러한 애플리케이션을 만들 수 있습니다. 동일한 데이터 랜딩 존 내의 다른 데이터 애플리케이션 또는 다른 데이터 랜딩 존에서 데이터 애플리케이션을 만들 수도 있습니다. 데이터 애플리케이션 만들기는 데이터 관리자의 승인을 받아야 합니다.

데이터 애플리케이션 리소스 그룹

데이터 애플리케이션 리소스 그룹에는 해당 데이터 애플리케이션을 만드는 데 필요한 모든 서비스가 포함됩니다. 예를 들어 시각화 도구에서 사용하는 MySQL에는 Azure Database가 필요합니다. 데이터는 MySQL 데이터베이스로 가져오기 전에 수집 및 변환해야 합니다. 이 경우 Azure Database for MySQL 및 Azure Data Factory를 데이터 애플리케이션 리소스 그룹에 배포할 수 있습니다.

운영 원본에서 한 번 수집하기 위해 데이터 무관 엔진을 구현하지 않거나, 데이터 무관 엔진에서 복잡한 연결이 용이하지 않은 경우에는 소스에 정렬된 데이터 애플리케이션을 만드세요. 자세한 내용은 데이터 애플리케이션 (원본 정렬)을 참조하세요.

자세한 데이터 제품 도입 방법은 Azure 클라우드 규모 분석 데이터 애플리케이션을 참조하세요.

보고 및 시각화

데이터 랜딩 존 내에 고유한 리소스를 배포하지 않고도 Power BI 작업 영역과 많은 유사점이 있는 패브릭 작업 영역 내에서 시각화 및 보고 도구를 사용할 수 있습니다. 패브릭 용량, 데이터 게이트웨이용 가상 머신 또는 데이터 애플리케이션을 최종 사용자에게 제공하는 데 필요한 기타 데이터 서비스를 배포하는 리소스 그룹을 포함할 수 있습니다.

다음 단계

  • Azure 클라우드 규모 분석 데이터 제품