Azure Databricks의 데이터 웨어하우징이란?
데이터 웨어하우징은 비즈니스 인사이트 및 보고를 위해 신속하게 액세스할 수 있도록 여러 원본에서 데이터를 수집하고 저장하는 것을 의미합니다. 이 문서에는 데이터 레이크하우스에서 데이터 웨어하우스를 빌드하기 위한 주요 개념이 포함되어 있습니다.
레이크하우스의 데이터 웨어하우징
레이크하우스 아키텍처 및 Databricks SQL은 클라우드 데이터 웨어하우징 기능을 데이터 레이크에 제공합니다. 친숙한 데이터 구조, 관계 및 관리 도구를 사용하여 데이터 레이크에서 직접 실행되는 매우 성능이 뛰어난 비용 효율적인 데이터 웨어하우스를 모델링할 수 있습니다. 자세한 내용은 데이터 레이크하우스란?
기존 데이터 웨어하우스와 마찬가지로 비즈니스 요구 사항에 따라 데이터를 모델링한 다음 분석 및 보고서를 위해 최종 사용자에게 제공합니다. 기존 데이터 웨어하우스와 달리 비즈니스 분석 데이터를 사일로 처리하거나 부실해지는 중복 복사본을 만드는 것을 방지할 수 있습니다.
Lakehouse 내에 데이터 웨어하우스를 빌드하면 모든 데이터를 단일 시스템으로 가져오고 Unity Catalog 및 Delta Lake와 같은 기능을 활용할 수 있습니다.
Unity Catalog 데이터 액세스를 보호하고 감사하고 다운스트림 tables계보 정보를 제공할 수 있도록 통합 거버넌스 모델을 추가합니다. Delta Lake ACID 트랜잭션 및 schema 진화를 추가하여 데이터를 안정적이고 확장 가능하며 고품질로 유지하기 위한 다른 강력한 도구 중 하나입니다.
Databricks SQL이란?
참고 항목
Azure 중국 지역에서는 Databricks SQL 서버리스를 사용할 수 없습니다. Azure Government 지역에서는 Databricks SQL을 사용할 수 없습니다.
Databricks SQL은 기존 데이터 레이크에 데이터 웨어하우징 기능 및 성능을 제공하는 서비스 컬렉션입니다. Databricks SQL은 개방형 형식 및 표준 ANSI SQL을 지원합니다. 플랫폼 내 SQL 편집기 및 대시보드 도구를 사용하면 팀 구성원이 작업 영역에서 직접 다른 Databricks 사용자와 공동 작업할 수 있습니다. 또한 Databricks SQL은 분석가가 새 플랫폼에 적응하지 않고도 즐겨 찾는 환경에서 쿼리 및 대시보드를 작성할 수 있도록 다양한 도구와 통합됩니다.
Databricks SQL은 lakehouse 내의 tables에 대해 실행되는 일반 컴퓨팅 리소스를 제공합니다. Databricks SQL은 스토리지에서 분리된 확장 가능한 SQL 컴퓨팅 리소스를 제공하는 SQL 웨어하우스(이전의 SQL 엔드포인트)에 의해 구동됩니다.
SQL Warehouse 기본값 및 옵션에 대한 자세한 내용은 SQL 웨어하우스에 연결을 참조하세요.
Databricks SQL은 Unity Catalog 통합되므로 한 곳에서 데이터 자산을 검색, 감사 및 제어할 수 있습니다. 자세한 내용은 UnityCatalog?을 참조하세요.
Azure Databricks의 데이터 모델링
레이크하우스는 다양한 모델링 스타일을 지원합니다. 다음 이미지는 레이크하우스의 여러 층을 통과할 때 데이터를 큐레이팅하고 모델링하는 방법을 보여 줍니다.
Medallion 아키텍처
medallion 아키텍처는 레이크하우스의 기본 구조를 제공하는 일련의 증분 구체화된 데이터 계층을 설명하는 데이터 디자인 패턴입니다. 브론즈, 실버 및 골드 레이어는 최고 품질을 나타내는 금으로 각 수준에서 데이터 품질이 향상되는 것을 의미합니다. 자세한 내용은 medallion 레이크하우스 아키텍처란?을 참조하세요.
레이크하우스 내부에서는 각 레이어가 하나 이상의 tables를 포함할 수 있습니다. 데이터 웨어하우스는 실버 계층에서 모델링되며 골드 계층의 특수 데이터 마트를 공급합니다.
브론즈 레이어
데이터는 배치 또는 증기 트랜잭션의 조합을 통해 모든 형식으로 레이크 하우스를 입력 할 수 있습니다. 브론즈 계층은 원래 형식의 모든 원시 데이터에 대한 방문 공간을 제공합니다. 해당 데이터는 Delta tables로 변환됩니다.
실버 레이어
실버 계층은 서로 다른 원본의 데이터를 함께 제공합니다. 이것이 데이터 과학 및 기계 학습 애플리케이션에 중점을 둔 비즈니스의 경우, 의미 있는 데이터 자산의 큐레이션을 시작하는 where입니다. 이 프로세스는 속도와 민첩성에 중점을 두는 경우가 많습니다.
또한 실버 계층은 where 서로 다른 원본의 데이터를 신중하게 통합하여 기존 비즈니스 프로세스에 맞게 데이터 웨어하우스를 구축할 수 있습니다. 이 데이터는 종종 3NF(세 번째 표준 양식) 또는 Data Vault 모델을 따릅니다. 기본 및 외래 키 제약 조건을 지정하면 최종 사용자가 Unity Catalog을(를) 사용할 때 table 관계를 이해할 수 있습니다. 데이터 웨어하우스는 데이터 마트에 대한 단일 진리 원본 역할을 해야 합니다.
데이터 웨어하우스 자체는 쓰기 시 schema이며 원자성입니다. 변경에 최적화되어 있으므로 비즈니스 프로세스가 변경되거나 진화할 때 현재 요구 사항에 맞게 데이터 웨어하우스를 신속하게 수정할 수 있습니다.
골드 레이어
골드 레이어는 하나 이상의 데이터 마트를 포함할 수 있는 프레젠테이션 계층입니다. 데이터 마트는 특정 비즈니스 관점을 포착하는 차원 모델로서, 관련 tables을 set 형식으로 표현하는 경우가 많습니다.
또한 골드 레이어에는 부서 및 데이터 과학 샌드박스가 포함되어 기업 전체에서 셀프 서비스 분석 및 데이터 과학을 사용할 수 있습니다. 이러한 샌드박스와 자체 컴퓨팅 클러스터를 제공하면 비즈니스 팀이 레이크하우스 외부에서 데이터 복사본을 만들지 못하게 됩니다.
다음 단계
Databricks를 사용하여 레이크하우스를 구현하고 운영하기 위한 원칙과 모범 사례에 대해 자세히 알아보려면 잘 설계된 데이터 레이크하우스 소개를 참조하세요.