다음을 통해 공유


데이터 제품이란?

모든 애플리케이션은 일시적으로 또는 영구적으로 데이터를 만들고 저장합니다. 또한 많은 애플리케이션은 오류 로깅 및 상태 모니터링과 같은 운영 관리 목적으로 데이터를 만들고 저장합니다. 이러한 애플리케이션이 생성하는 데이터를 사용하고 처리하기 위해 중앙 집중식 데이터 팀은 ETL(추출, 변환 및 로드) 프로세스를 사용합니다. 애플리케이션 운영 팀에는 애플리케이션 상태 데이터 및 KPI 상태 모니터링 데이터와 같은 데이터에 대한 다른 데이터 처리 흐름이 있는 경우가 많습니다.

데이터 통합의 경우 팀이 특정 단계 순서를 따르는 기존의 폭포 접근 방식은 이상적이지 않습니다. 이로 인해 사용자의 데이터 품질, 타임라인 및 가치에 영향을 주는 지식 격차, 소유권 문제 및 통신 충돌이 발생할 수 있습니다. 애플리케이션 팀은 애플리케이션 성능 및 성공을 담당합니다. 폭포 접근 방식을 사용하는 경우 다른 팀이 소유한 다운스트림 프로세스를 변경합니다. 경우에 따라 이러한 변경 내용이 다른 영역에 영향을 줄 수 있습니다. 예를 들어 약간의 업스트림 변경으로 KPI의 추세가 크게 변경될 수 있습니다. 이러한 충돌은 중요한 결정을 내리는 능력에 영향을 줄 수 있습니다.

제품으로서의 데이터

이러한 문제를 방지하기 위해 데이터 메시 접근 방식은 데이터의 개념을 제품채택합니다. 애플리케이션 소유자와 애플리케이션 팀은 데이터를 다른 팀의 프로세스의 부산물이 아닌 완전히 포함된 제품으로 취급합니다. 애플리케이션 및 분석 데이터 제공 작업은 모두 도메인 책임 영역 내에 있습니다.

데이터 제품은 분석 사용을 위해 특별히 만들어집니다. 셰이프, 사용 인터페이스, 유지 관리 및 새로 고침 주기를 정의하고 합의했으며 모두 문서화되어 있습니다.

데이터 제품은 서비스 수준 목표의 인터페이스를 통해 다운스트림 프로세스와 공유할 수 있는 처리된 도메인 데이터 자산 또는 데이터 세트입니다. 달리 필요하지 않은 경우 사용 가능하도록 하기 전에 합의된 품질 표준을 충족하도록 원시 데이터를 처리, 셰이프, 정리, 집계 및 정규화해야 합니다.

다음 섹션에서는 좋은 데이터 제품의 일반적인 특징을 간략하게 설명합니다.

데이터 제품 특성

데이터 제품이 다음과 같은지 확인합니다.

  • 검색 가능하고, 이해할 수 있고, 신뢰할 수 있습니다. 검색 가능성과 명확성을 제공하기 위해 각 데이터 제품, 해당 데이터, 해당 의미, 데이터의 셰이프 형식 및 새로 고침 주기에 대한 정보를 공유하고 업데이트합니다. 데이터 변경 내용 또는 셰이프 변경 내용을 다운스트림 소비자에게 적시에 전달합니다. 신뢰성을 보장하기 위해 인터페이스는 데이터 제품 구조에 대해 시간 제한된 역호환성을 제공합니다.

  • 주소 지정 가능하고, 고유하게 액세스할 수 있으며, 안전합니다. 데이터 제품에 대한 주소 지정 가능성을 제공하려면, 각 데이터 제품을 찾고 접근할 수 있는 정의된 프로세스를 만드십시오. 다양한 액세스 요구 사항에 대한 보안 조치를 구현합니다. 데이터 도메인에 대한 사고방식을 데이터 접근을 제한하는 것에서 잘 정의된 보안 조치를 통해 데이터를 제공하는 것으로 전환하십시오. 잘 문서화된 액세스 인터페이스는 다양한 기술에 따라 달라질 수 있습니다. 고유하게 액세스할 수 있는 데이터 제품에 일반적으로 사용되는 인터페이스에는 API, 데이터베이스 사용자, 테이블 또는 뷰 및 필요한 액세스 권한이 있는 파일이 포함됩니다.

  • 상호 운용 가능하고 진실하며 가치가 있습니다. 상호 운용성을 제공하려면 데이터가 이름과 데이터 형식이 같은 값과 같은 정의된 공통 표준을 따르는지 확인합니다. 예를 들어 모든 데이터 제품의 CustomerID 고객 식별 데이터 포함된 열의 이름을 지정할 수 있으며 해당 데이터는 항상 정수일 수 있습니다. 데이터 제품은 고객에게 가치를 제공하며, 동일한 도메인 또는 다른 도메인의 새 데이터 제품에 대한 업스트림 원본으로 사용할 수 있습니다. 그러나 동일한 데이터 제품을 여러 곳에 가지고 다니고 복사할 수는 없습니다. 이전 데이터 제품에서 가져온 각 데이터 제품은 다운스트림 소비자에게 새로운 가치와 정보를 제공해야 합니다. 또한 데이터 제품은 진실하고 정확한 데이터를 제공해야 합니다.

잘 디자인되고 잘 유지 관리되는 데이터 제품 및 해당 인터페이스를 사용하여 데이터 중복을 방지하고 네이티브 단일 데이터 원본을 만들 수 있습니다.

데이터 제품 디자인 권장 사항

데이터 제품 서비스 요구 사항을 충족하려면 도메인 팀이 새로운 기술 세트를 획득하고 새로운 도구와 플랫폼을 사용해야 합니다.

데이터 애플리케이션을 빌드하고 데이터 제품을 생성하거나 제공하려면 도메인 애플리케이션 팀을 완전히 구성합니다. 팀은 친숙한 기술 스택을 사용하여 데이터 제품을 빌드할 수 있습니다. 또한 자체 Spark 인스턴스 또는 파이프라인 엔진을 선호할 수도 있습니다. 예를 들어 많은 데이터 제품을 제공하는 대규모 도메인은 자체 Azure Synapse Analytics 인스턴스에서 데이터 제품을 처리하고 제공할 수 있습니다. 소규모 조직 및 대규모 조직의 소규모 도메인은 중앙에 위치한 Azure Data Factory, Azure Synapse Analytics 또는 Azure Databricks 인스턴스와 같은 공유 플랫폼에서 데이터 애플리케이션을 개발하고 실행할 수 있습니다.

데이터 제품에 이 문서에 설명된 일반적인 특성이 있는지, 계보 리포지토리가 데이터 애플리케이션 계보를 반영하고, 구현 및 액세스를 제어하는지 확인합니다.

다음 다이어그램은 도메인 및 랜딩 존의 예제 데이터 애플리케이션 논리 레이아웃을 보여줍니다.

도메인 및 랜딩 존에서 가능한 데이터 애플리케이션 논리 레이아웃을 보여 주는 다이어그램입니다.

다음 단계