데이터 메시에 대한 금융 기관 시나리오
이 시나리오는 확장성과 데이터 메시 아키텍처를 위해 클라우드 규모의 분석을 사용하고자 하는 고객을 위한 것입니다. 랜딩 존, 데이터 통합 및 데이터 제품을 사용하는 복잡한 시나리오를 보여 줍니다.
고객 프로필
가상의 기업인 Woodgrove Bank는 전 세계적으로 발자국을 가진 대형 금융 서비스 회사입니다. Woodgrove Bank의 데이터는 온-프레미스 및 클라우드 배포 시스템에 저장됩니다. Woodgrove Bank 아키텍처 내에는 통합 마케팅 및 통합 보고를 위한 여러 데이터 웨어하우스 시스템이 있습니다. 이 아키텍처에는 계획되지 않은 분석 및 데이터 검색을 위한 여러 데이터 레이크가 포함되어 있습니다. Woodgrove Bank 애플리케이션은 주로 API 기반 또는 이벤트 기반인 애플리케이션 통합 패턴을 통해 상호 연결됩니다.
현재 상황
Woodgrove Bank는 데이터 웨어하우징의 복잡성으로 인해 다른 위치에 데이터를 배포하기가 어렵습니다. 새 데이터를 통합하는 것은 시간이 오래 걸리며 데이터를 복제하려는 유혹이 있습니다. Woodgrove Bank는 지점 간 연결로 인해 엔드 투 엔드 데이터 환경을 감독하기가 어렵습니다. 은행은 집중적인 데이터 소비에 대한 수요를 과소평가했습니다. 새로운 사용 사례는 하나씩 빠르게 도입됩니다. 데이터 소유권 및 품질, 비용 등의 데이터 거버넌스는 제어하기 어렵습니다. Woodgrove Bank는 데이터가 어디에 있는지 정확히 알지 못하기 때문에 규정을 최신 상태로 유지하는 것은 어렵습니다.
아키텍처 솔루션: 데이터 메시
지난 몇 년 동안 조직은 데이터가 모든 것의 핵심임을 인식합니다. 데이터는 새로운 효율성을 열고, 혁신을 촉진하며, 새로운 비즈니스 모델의 잠금을 해제하고, 고객 만족도를 높입니다. 회사에서 대규모 데이터와 같은 데이터 기반 메서드를 사용하는 것이 최우선 과제입니다.
모든 조직 구성원이 더 깊은 데이터 값에 액세스할 수 있는 단계에 도달하는 것은 어려운 일입니다. 레거시 및 긴밀하게 상호 연결된 시스템, 중앙 집중식 모놀리식 플랫폼 및 복잡한 거버넌스는 데이터에서 가치를 생성하는 데 상당한 장벽이 될 수 있습니다.
데이터 메시 정보
Zhamak Dehghani에서 만든 용어인 데이터 메시의 개념은 데이터, 기술, 프로세스 및 조직을 포함합니다. 개념적으로 다양한 도메인에서 자체 데이터를 사용하는 데이터를 관리하는 액세스 가능한 접근 방식입니다. 데이터 메시는 기존의 데이터 중앙 집중화 개념에 도전합니다. 데이터를 하나의 거대한 리포지토리로 보는 대신, 데이터 메시는 독립적인 데이터 제품의 분해를 고려합니다. 중앙 집중식에서 페더레이션된 소유권으로의 이러한 전환은 일반적으로 클라우드 네이티브 기술을 사용하여 설계된 최신 셀프 서비스 데이터 플랫폼에서 지원됩니다.
데이터 메시 개념을 구성 요소로 세분화할 때 고려해야 할 몇 가지 주요 사항은 다음과 같습니다.
- Data as a Product: 각 (조직) 도메인은 데이터를 종단 간 관리합니다. 책임은 도메인 내의 데이터 소유자에게 있습니다. 파이프라인은 도메인 자체의 일류 관심사가 됩니다.
- 페더레이션된 컴퓨팅 데이터 거버넌스
: 각 데이터 소유자가 다른 데이터를 신뢰하고 해당 데이터 제품을 공유할 수 있도록 하려면 엔터프라이즈 데이터 거버넌스 본문을 설정해야 합니다. 거버넌스 기관은 데이터 품질, 데이터 소유권의 중앙 가시성, 데이터 액세스 관리 및 데이터 개인 정보 보호 정책을 구현합니다. - Domain-Oriented 데이터 소유권: 엔터프라이즈는 도메인 지향 디자인의 원칙을 적용하여 메시 내의 각 데이터 도메인 노드를 정의하고 모델링하는 것이 이상적입니다.
- Self-Serve Data Platform: 데이터 메시에는 사용자가 기술적 복잡성을 제거하고 개별 데이터 사용 사례에 집중할 수 있는 셀프 서비스 데이터 플랫폼이 필요합니다.
Cloud-Scale 분석
제품으로서의 데이터 사고와 셀프 서비스 플랫폼 모델은 Microsoft의 새로운 모델이 아닙니다. Microsoft는 수년 동안 분산 플랫폼, 도메인 간 파이프라인, 페더레이션된 소유권 및 자체 설명 데이터의 모범 사례를 관찰했습니다.
Woodgrove Bank는 '클라우드 스케일 분석'을 사용하여 '데이터 메시'로 전환할 수 있습니다. 클라우드 규모 분석은 최신 데이터 플랫폼을 설계하고 신속하게 배포하기 위한 오픈 소스 및 규범적 청사진입니다. Azure 모범 사례 및 디자인 원칙과 결합되며 Azure Well-Architected Framework와 일치합니다. 클라우드 규모 분석은 기업에 80%의 규정된 관점을 제공하고 나머지 20%는 사용자 지정할 수 있습니다.
클라우드 규모 분석은 기업에게 데이터 메시에 대한 전략적 디자인 경로를 제공하며, 이러한 아키텍처를 신속하게 설정하는 데 사용할 수 있습니다. 데이터 관리를 위한 핵심 데이터 플랫폼 서비스를 포함한 청사진을 제공합니다.
가장 높은 수준에서 클라우드 규모 분석은 데이터 관리 랜딩 존을 통해 사용하도록 설정된 데이터 관리 기능을 사용합니다. 이 영역은 (셀프 서비스) 플랫폼 조직의 페더레이션된 데이터 거버넌스와 데이터 제품을 통해 비즈니스 가치를 높이는 데이터 도메인을 담당합니다. 이 방법의 이점은 동일한 표준을 준수하면서 기술적 복잡성을 제거한다는 것입니다. 그것은 기술의 확산이 없다는 것을 보장합니다. 또한 기업은 작은 공간으로 모듈식으로 시작한 다음 시간이 지남에 따라 성장할 수 있습니다.
다음 다이어그램에서 볼 수 있듯이 데이터 관리 랜딩 존은 모든 데이터 도메인을 둘러쌉니다. 모든 도메인을 통합하여 Woodgrove Bank가 찾고 있는 감시 기능을 제공합니다.
또한 클라우드 규모 분석은 데이터 제품이 배포될 때 공통 아키텍처를 사용하는 일관된 거버넌스의 적용을 옹호합니다. 프레임워크는 도메인 간의 직접 통신을 허용합니다. 데이터를 보호하고 그룹이 데이터를 검색할 수 있도록 중앙 카탈로그 및 분류에 중점을 두어 제어를 유지합니다. 데이터 자산 위에 우산을 놓습니다.
데이터 도메인
클라우드 규모 분석을 전략적 경로로 사용하는 경우 아키텍처의 분해와 결과 세분성을 고려해야 합니다. 데이터 메시는 기술의 테두리를 따르지 않음으로써 데이터를 분해합니다. 대신 대규모 조직을 위한 복잡한 시스템을 포함하는 소프트웨어 개발에 대한 접근 방식인 DDD(도메인 기반 디자인)의 원칙을 적용합니다. DDD는 마이크로 서비스와 같은 최신 소프트웨어 및 애플리케이션 개발 관행에 영향을 미치기 때문에 인기가 있습니다.
도메인 기반 디자인의 패턴 중 하나를 제한된 컨텍스트라고 합니다. 제한된 컨텍스트는 복잡성을 더 잘 관리하기 위해 도메인 솔루션 공간의 논리적 경계를 설정합니다. 팀은 데이터를 포함하여 변경할 수 있는 측면과 다른 사용자와의 조정이 필요한 공유 종속성을 이해하는 것이 중요합니다. 데이터 메시는 바인딩된 컨텍스트를 포함합니다. 이 패턴을 사용하여 조직이 데이터 도메인을 조정하고 데이터를 제품으로 제공하는 데 집중하는 방법을 설명합니다. 각 데이터 도메인은 다른 데이터와 독립적인 자체 기술 스택을 사용하여 여러 데이터 제품을 소유하고 운영합니다.
데이터 제품
이러한 데이터 도메인의 내부 아키텍처를 확대하면 데이터 제품을 찾을 수 있습니다.
데이터 제품은 데이터를 사용하는 기업 내에서 특정 요구 사항을 충족합니다. 데이터 제품은 도메인 간에 데이터를 관리, 구성 및 이해한 다음 얻은 인사이트를 제공합니다. 데이터 제품은 하나 이상의 데이터 통합 또는 다른 데이터 제품의 데이터 결과입니다. 데이터 제품은 데이터 도메인과 긴밀하게 일치하며 이해 관계자 및 디자이너가 동의한 동일한 생성된 공식화된 언어를 상속합니다. 데이터를 생성하는 각 도메인은 이러한 데이터 제품을 다른 도메인에서 사용할 수 있도록 하는 역할을 담당합니다.
클라우드 규모 분석은 데이터 제품을 신속하게 제공할 수 있도록 데이터 배포 및 통합 패턴에 대한 템플릿을 제공합니다. 프레임워크는 다양한 소비자의 요구를 해결하기 위해 데이터 일괄 처리, 스트리밍 및 분석을 제공합니다.
클라우드 규모 분석의 한 가지 좋은 점은 도메인 및 데이터 제품을 구성하는 방법입니다. 각 데이터 도메인은 하나의 데이터 랜딩 존(논리적 구문 및 클라우드 규모 분석 아키텍처의 규모 단위)과 일치합니다. 이를 통해 데이터 워크로드의 데이터 보존 및 실행을 가능하게 하여 인사이트와 가치를 생성합니다. 각 데이터 제품은 데이터 랜딩 존 내의 하나의 리소스 그룹에 맞춰지고 모든 데이터 랜딩 존 및 관리 영역은 구독과 일치합니다. 이 방법을 사용하면 구현 및 관리가 용이합니다.
모든 클라우드 규모 분석 템플릿은 데이터 관리 랜딩 존에서 동일한 정책 집합을 상속합니다. 템플릿은 데이터 검색 가능성, 거버넌스, 보안, 비용 관리 및 운영 우수성에 필요한 메타데이터를 자동으로 제공합니다. 복잡한 온보딩, 통합 및 테스트 없이도 새 데이터 도메인을 신속하게 온보딩할 수 있습니다.
다음 다이어그램은 데이터 제품의 모양을 보여 줍니다.
데이터 제품을 구축하는 실용적인 접근 방식은 데이터가 시작되는 소스와 일치시키거나, 데이터를 사용하는 소비 사례에 맞추는 것입니다. 두 경우 모두 기본(복잡한) 애플리케이션 데이터 모델의 추상 보기를 제공해야 합니다. 기술 세부 정보를 숨기고 집중적인 데이터 사용을 최적화해야 합니다. 데이터를 논리적으로 함께 그룹화하는 Azure Synapse 뷰 또는 Parquet 파일은 다양한 데이터 도메인에서 데이터 제품을 공유하는 방법의 예입니다.
다음으로 데이터 검색 가능성, 출처, 사용량 및 계보에 대해 작업해야 합니다. 입증된 방법은 Microsoft Purview와 같은 데이터 거버넌스 서비스를 사용하여 모든 데이터를 등록하는 것입니다. 클라우드 규모 분석의 데이터 통합은 메타데이터 등록을 동시에 수행함으로써 이러한 데이터 제품을 구축할 수 있어, 완벽한 연결을 이룹니다.
데이터 도메인 및 Microsoft Purview 컬렉션을 정렬하면 개별 도메인에서 모든 데이터 원본, 계보, 데이터 품질 세부 정보 및 소비 정보를 자동으로 캡처합니다. 이 방법을 사용하면 여러 데이터 도메인 및 제품을 각 환경의 모든 메타데이터를 저장하는 중앙 집중식 거버넌스 솔루션에 연결할 수 있습니다. 이점은 모든 메타데이터를 중앙에서 통합하고 다양한 소비자가 쉽게 액세스할 수 있도록 한다는 것입니다. 이 아키텍처를 확장하여 새 데이터 제품을 등록할 수 있습니다.
다음 다이어그램에서는 클라우드 규모 분석을 사용하는 도메인 간 데이터 메시 아키텍처를 보여 줍니다.
네트워크 디자인을 사용하면 최소한의 비용을 사용하고 단일 실패 지점 및 대역폭 제한을 제거하여 도메인 간에 데이터 제품을 공유할 수 있습니다. 보안을 보장하기 위해 Microsoft 제로 트러스트 보안 모델을 사용할 수 있습니다. 클라우드 규모 분석은 최소 권한
관리 ID를 사용하여 최소 권한 액세스 모델을 따를 수 있습니다. 이 모델의 애플리케이션 및 서비스는 데이터 제품에 대한 액세스가 제한됩니다. 다가오는 데이터 정책과 결합된 Azure 정책은 셀프 서비스 기능을 활성화하고 모든 데이터 제품 내에서 규정을 준수하는 리소스를 대규모로 적용하는 데 사용됩니다. 이 디자인을 사용하면 중앙 집중식 데이터 거버넌스 및 감사를 통해 완전히 제어하면서 균일한 데이터 액세스를 가질 수 있습니다.
미래를 향해 진화
클라우드 차원의 분석은 데이터 메시를 염두에 두고 설계되었습니다. 클라우드 규모 분석은 조직이 여러 데이터 도메인에서 데이터를 공유할 수 있는 검증된 접근 방식을 제공합니다. 이 프레임워크를 사용하면 도메인이 자체적으로 선택할 수 있는 자율성을 갖게 되고, 데이터 관리 서비스로 경계를 설정하여 아키텍처를 제어합니다.
데이터 메시를 구현하는 경우 도메인을 논리적으로 그룹화하고 구성합니다. 이 접근 방식을 사용하려면 엔터프라이즈 보기가 필요하며 조직의 문화적 변화일 수 있습니다. 이러한 변화를 위해서는 데이터를 제품으로 제공할 책임이 있는 데이터 도메인과 소유자 간에 데이터 소유권을 페더레이션해야 합니다. 또한 팀이 데이터 관리 랜딩 존에서 제공하는 중앙 집중식 기능을 준수해야 합니다. 이 새로운 접근 방식을 사용하려면 개별 팀이 현재 위임을 포기해야 할 수 있으며, 이로 인해 저항이 발생할 수 있습니다. 귀하는 특정 정치적 선택을 하고 중앙 집중식 접근 방식과 분산 접근 방식 사이의 균형을 맞춰야 할 수도 있습니다.
개별 도메인의 아키텍처에 랜딩 존을 더 추가하여 데이터 메시 아키텍처의 크기를 조정할 수 있습니다. 이러한 랜딩 존은 가상 네트워크 피어링을 사용하여 데이터 관리 랜딩 존 및 기타 모든 랜딩 존에 연결합니다. 이 패턴을 사용하면 여러 영역에서 데이터 제품 및 리소스를 공유할 수 있습니다. 별도의 영역으로 분할하면 Azure 구독 및 리소스에 워크로드를 분산할 수 있습니다. 이 방법을 사용하면 데이터 메시를 유기적으로 구현할 수 있습니다.
더 알아보세요
Microsoft 리소스:
데이터 메시의 창시자 Zhamak Dehghani의 기사: