함께 사용하면 더 효율적 - 레이크하우스와 웨어하우스

아티클
10/15/2024

적용 대상:Microsoft Fabric의 ✅ SQL 분석 엔드포인트 및 웨어하우스

이 문서에서는 레이크하우스의 SQL 분석 엔드포인트를 통한 데이터 웨어하우징 워크로드 및 데이터 웨어하우징에서 레이크하우스를 사용하는 시나리오를 설명합니다. 웨어하우스 데이터 개발 선택에 대한 의사 결정 가이드는 Microsoft Fabric 의사 결정 가이드: 웨어하우스와 레이크하우스 중 선택을 참조하세요.

레이크하우스 SQL 분석 엔드포인트란?

Fabric에서 레이크하우스를 만들면 웨어하우스가 자동으로 만들어집니다.

SQL 분석 엔드포인트를 사용하면 T-SQL 언어 및 TDS 프로토콜을 사용하여 레이크하우스에서 데이터를 쿼리할 수 있습니다. 모든 레이크하우스에는 하나의 SQL 분석 엔드포인트가 있으며, 각 작업 영역에는 둘 이상의 레이크하우스가 있을 수 있습니다. 작업 영역의 SQL 분석 엔드포인트 수는 레이크하우스 항목 수와 일치합니다.

SQL 분석 엔드포인트는 모든 레이크하우스에 대해 자동으로 생성되며, 레이크하우스의 델타 테이블을 T-SQL 언어를 사용하여 쿼리할 수 있는 SQL 테이블로 노출합니다.
레이크하우스의 모든 델타 테이블은 하나의 테이블로 표현됩니다. 데이터는 델타 형식이어야 합니다.
기본 Power BI 의미 체계 모델은 모든 SQL 분석 엔드포인트에 대해 생성되며 레이크하우스 개체의 명명 규칙을 따릅니다.

Microsoft Fabric에서 SQL 분석 엔드포인트를 만들 필요가 없습니다. Microsoft Fabric 사용자는 작업 영역에서 SQL 분석 엔드포인트를 만들 수 없습니다. SQL 분석 엔드포인트는 모든 레이크하우스에 대해 자동으로 만들어집니다. SQL 분석 엔드포인트를 얻으려면 레이크하우스를 만들면 레이크하우스에 대한 SQL 분석 엔드포인트가 자동으로 만들어집니다.

참고 항목

내부적으로, SQL 분석 엔드포인트는 웨어하우스와 동일한 엔진을 사용하여 대기 시간이 짧은 고성능 SQL 쿼리를 제공합니다.

자동 메타데이터 발견

원활한 프로세스를 통해 델타 로그와 파일 폴더를 읽고 통계와 같은 테이블의 SQL 메타데이터를 항상 최신 상태로 유지할 수 있습니다. 사용자 작업이 필요하지 않으며, 데이터를 가져오거나 복사하거나 인프라를 설정할 필요가 없습니다. 자세한 내용은 SQL 분석 엔드포인트에서 자동으로 생성된 스키마를 참조하세요.

레이크하우스가 데이터 웨어하우징을 가능하게 하는 시나리오

Fabric에서는 하나의 웨어하우스를 제공합니다.

웨어하우스에서 제공하는 SQL 분석 엔드포인트가 있는 레이크하우스는 일괄 처리, 스트리밍 또는 람다 아키텍처 패턴의 기존 의사 결정 트리를 간소화할 수 있습니다. 레이크하우스는 웨어하우스와 함께 다양한 추가 분석 시나리오를 가능하게 합니다. 이 섹션에서는 최상의 품종 분석 전략을 위해 웨어하우스와 함께 레이크하우스를 사용하는 방법을 살펴봅니다.

Fabric 레이크하우스의 골드 레이어를 통한 분석

레이크 데이터 조직에 대해 잘 알려진 전략 중 하나는 파일을 원시(브론즈), 통합(실버) 및 정제(골드) 계층으로 구성하는 medallion 아키텍처입니다. 파일이 Delta Lake 형식으로 저장된 경우 Microsoft Fabric OneLake 외부에 저장되어 있더라도 SQL 분석 엔드포인트를 사용하여 medallion 아키텍처의 골드 계층에서 데이터를 분석할 수 있습니다.

OneLake 바로 가기를 사용하여 Synapse Spark 또는 Azure Databricks 엔진에서 관리하는 외부 Azure Data Lake Storage 계정에서 골드 폴더를 참조할 수 있습니다.

웨어하우스는 맞춤형 분석 요구 사항을 가질 수 있는 특정 주체에 대한 주체 영역 또는 도메인 지향 솔루션으로 추가할 수도 있습니다.

데이터를 Fabric에 보관하도록 선택하는 경우 API, 델타 형식, 그리고 물론 T-SQL을 통해 항상 오픈되어 있고 액세스할 수 있습니다.

Lakehouse의 델타 테이블 및 OneLake의 다른 항목을 통해 서비스로 쿼리

분석가, 데이터 과학자 또는 데이터 엔지니어가 데이터 레이크 내에서 데이터를 쿼리해야 하는 사용 사례가 있습니다. Fabric에서는 이러한 엔드투엔드 환경은 완전히 SaaS로 분류됩니다.

OneLake는 전체 조직에 대한 단일 통합 논리 데이터 레이크입니다. OneLake는 데이터를 위한 OneDrive입니다. OneLake는 예를 들어 조직 부서를 따라 여러 작업 영역을 포함할 수 있습니다. Fabric의 모든 항목은 OneLake를 통해 데이터에 액세스할 수 있습니다.

Microsoft Fabric 레이크하우스의 데이터는 다음 폴더 구조를 사용하여 OneLake에 물리적으로 저장됩니다.

/Files 폴더에는 데이터 엔지니어가 분석하기 전에 처리해야 하는 원시 및 연결되지 않은(브론즈) 파일이 포함되어 있습니다. 파일은 CSV, Parquet, 다양한 유형의 이미지 등 다양한 형식일 수 있습니다.
/Tables 폴더에는 비즈니스 분석을 위해 준비된 구체화되고 통합된(골드) 데이터가 포함되어 있습니다. 통합 데이터는 Delta Lake 형식입니다.

SQL 분석 엔드포인트는 OneLake 내의 /tables 폴더에서 데이터를 읽을 수 있습니다. 분석은 레이크하우스의 SQL 분석 엔드포인트를 쿼리하는 것만큼 간단합니다. 또한 Warehouse와 함께 데이터베이스 간 쿼리와 읽기 전용 쿼리에서 패브릭 데이터 웨어하우스를 사용하여 OneLake 데이터 위에 추가 비즈니스 논리를 빌드하는 기능으로 원활하게 전환할 수 있습니다.

Spark를 통한 데이터 엔지니어링 및 SQL을 통한 서비스

데이터 기반 기업은 백 엔드 및 분석 시스템을 고객 관련 애플리케이션과 거의 실시간으로 동기화해야 합니다. 트랜잭션의 영향은 엔드투엔드 프로세스, 관련 애플리케이션 및 OLTP(온라인 트랜잭션 처리) 시스템을 통해 정확하게 반영되어야 합니다.

Fabric에서 Spark 스트리밍 또는 데이터 엔지니어링을 사용하여 데이터를 큐레이팅할 수 있습니다. 레이크하우스 SQL 분석 엔드포인트를 사용하여 데이터 품질 및 기존 T-SQL 프로세스의 유효성을 검사할 수 있습니다. 이 작업은 medallion 아키텍처 또는 레이크하우스의 여러 계층 내에서 브리즈, 실버, 골드 또는 스테이징, 큐레이팅 및 구체화된 데이터를 제공하는 데 사용할 수 있습니다. Spark를 통해 만든 폴더와 테이블을 사용자 지정하여 데이터 엔지니어링 및 비즈니스 요구 사항을 충족할 수 있습니다. 준비가 되면 웨어하우스는 데이터를 복사하거나, 보기를 사용하거나 CREATE TABLE AS SELECT(CTAS) 저장 프로시저 및 기타 DML/DDL 명령을 사용하여 데이터를 구체화하지 않고도 모든 다운스트림 비즈니스 인텔리전스 애플리케이션 및 기타 분석 사용 사례를 제공할 수 있습니다.

Open 레이크하우스의 골드 레이어와 통합

SQL 분석 엔드포인트는 Fabric 레이크하우스의 데이터 분석에만 국한되지 않습니다. SQL 분석 엔드포인트를 사용하면 Synapse Spark, Azure Databricks 또는 다른 레이크 중심 데이터 엔지니어링 엔진을 사용하여 레이크하우스의 레이크 데이터를 분석할 수 있습니다. 데이터는 Azure Data Lake Storage 또는 Amazon S3에 저장할 수 있습니다.

Fabric 레이크하우스와의 긴밀하고 양방향적인 통합은 개방형 API, 델타 형식, T-SQL을 갖춘 모든 엔진을 통해 항상 액세스할 수 있습니다.

바로 가기를 통해 외부 데이터 레이크의 데이터 가상화

OneLake 바로 가기를 사용하여 Synapse Spark 또는 Azure Databricks 엔진에서 관리하는 외부 Azure Data Lake Storage 계정의 골드 폴더와 Amazon S3에 저장된 모든 델타 테이블을 참조할 수 있습니다.

바로 가기를 사용하여 참조되는 모든 폴더는 SQL 분석 엔드포인트에서 분석할 수 있으며 참조된 데이터에 대한 SQL 테이블이 만들어집니다. SQL 테이블을 사용하여 외부에서 관리되는 데이터 레이크에 데이터를 노출하고 이에 대한 분석을 수행할 수 있습니다.

이 바로 가기는 추가적인 다운스트림 분석 요구 사항을 위해 웨어하우스에서 활용하거나 직접 쿼리할 수 있는 가상 웨어하우스 역할을 합니다.

다음 단계를 사용하여 외부 Data Lake Storage 계정의 데이터를 분석할 수 있습니다.

Azure Data Lake Storage 또는 Amazon S3 계정의 폴더를 참조하는 바로 가기를 만듭니다. 연결 세부 정보 및 자격 증명을 입력하면 레이크하우스에 바로 가기가 표시됩니다.
레이크하우스의 SQL 분석 엔드포인트로 전환하고 바로 가기 이름과 일치하는 이름이 있는 SQL 테이블을 찾습니다. 이 SQL 테이블은 ADLS/S3 폴더의 폴더를 참조합니다.
ADLS/S3에서 데이터를 참조하는 SQL 테이블을 쿼리합니다. 이 테이블은 SQL 분석 엔드포인트의 다른 테이블처럼 사용할 수 있습니다. 다른 스토리지 계정의 데이터를 참조하는 테이블을 조인할 수 있습니다.

참고 항목

SQL 테이블이 SQL 분석 엔드포인트에 즉시 표시되지 않는 경우 몇 분 정도 기다려야 할 수 있습니다. 외부 스토리지 계정의 데이터를 참조하는 SQL 테이블은 지연되어 생성됩니다.

데이터 레이크에서 보관된 데이터 또는 기록 데이터 분석

데이터 분할은 데이터 레이크에서 잘 알려진 데이터 액세스 최적화 기술입니다. 분할된 데이터 집합은 /year=<year>/month=<month>/day=<day> 형식의 계층적 폴더 구조에 저장되며, 여기서 year, month, day는 분할 열입니다. 이를 통해 전체 디렉터리 및 포함된 모든 폴더 및 파일을 읽는 것이 아니라 컴퓨팅 엔진이 성능 필터링을 통해 필요에 따라 데이터를 읽을 수 있는 형식으로 논리적으로 구분된 기록 데이터를 저장할 수 있습니다.

분할된 데이터를 사용하면 조건자 열을 값과 비교하는 조건자에서 쿼리를 필터링하는 경우 더 빠르게 액세스할 수 있습니다.

SQL 분석 엔드포인트는 구성 없이도 이 유형의 데이터를 쉽게 읽을 수 있습니다. 예를 들어 SQL Server 2022 또는 Azure SQL Managed Instance를 비롯한 모든 애플리케이션을 사용하여 데이터를 데이터 레이크에 보관할 수 있습니다. 데이터를 분할하고 외부 테이블과 함께 보관 목적으로 레이크에 보관한 후 SQL 분석 엔드포인트는 분할된 Delta Lake 테이블을 SQL 테이블로 읽고 조직에서 분석할 수 있도록 할 수 있습니다. 이를 통해 총 소유 비용이 줄어들고, 데이터 중복이 감소하며, 빅 데이터, AI, 기타 분석 시나리오가 활성화됩니다.

바로 가기를 통한 Fabric 데이터의 데이터 가상화

Fabric 내에서 작업 영역을 사용하면 복잡한 비즈니스, 지리적 또는 규제 요구 사항에 따라 데이터를 분리할 수 있습니다.

SQL 분석 엔드포인트를 사용하면 원활한 가상화를 통해 다른 Microsoft Fabric 작업 영역에서도 데이터를 그대로 유지하면서 웨어하우스 또는 레이크하우스의 데이터를 분석할 수 있습니다. 모든 Microsoft Fabric 레이크하우스는 OneLake에 데이터를 저장합니다.

바로 가기를 사용하면 OneLake 위치에 있는 폴더를 참조할 수 있습니다.

모든 Microsoft Fabric 웨어하우스는 OneLake에 테이블 데이터를 저장합니다. 테이블이 추가 전용인 경우 테이블 데이터는 OneLake에서 Delta Lake 데이터로 노출됩니다. 바로 가기를 사용하면 웨어하우스 테이블이 노출되는 OneLake의 폴더를 참조할 수 있습니다.

작업 영역을 사용하면 복잡한 비즈니스, 지리적 또는 규제 요구 사항에 따라 데이터를 분리할 수 있지만 특정 분석 요구 사항에 맞게 이러한 라인 간에 공유를 용이하게 해야 하는 경우도 있습니다.

레이크하우스 SQL 분석 엔드포인트를 사용하면 사용자가 자신의 용량과 웨어하우스를 가져올 수 있는 부서와 사용자 간에 데이터를 쉽게 공유할 수 있습니다. 작업 영역은 부서, 사업부 또는 분석 도메인을 조직합니다. 사용자는 바로 가기를 사용하여 모든 웨어하우스 또는 레이크하우스의 데이터를 찾을 수 있습니다. 사용자는 동일한 공유 데이터에서 자신만의 사용자 지정 분석을 즉시 수행할 수 있습니다. 부서별 차지백 및 사용량 할당을 지원하는 것 외에도, 이는 데이터를 복사하지 않는 버전이기도 합니다.

SQL 분석 엔드포인트를 사용하면 모든 테이블을 쿼리하고 쉽게 공유할 수 있습니다. 추가적인 비즈니스 요구 사항을 충족하기 위해 계층화할 수 있는 작업 영역 역할 및 보안 역할에 대한 추가 제어 기능이 추가되었습니다.

다음 단계를 사용하여 작업 영역 간 데이터 분석을 사용하도록 설정할 수 있습니다.

액세스할 수 있는 작업 영역의 테이블 또는 폴더를 참조하는 OneLake 바로 가기를 만듭니다.
분석하려는 테이블 또는 Delta Lake 폴더가 포함된 레이크하우스 또는 웨어하우스를 선택합니다. 테이블/폴더를 선택하면 레이크하우스에 바로 가기가 표시됩니다.
레이크하우스의 SQL 분석 엔드포인트로 전환하고 바로 가기 이름과 일치하는 이름이 있는 SQL 테이블을 찾습니다. 이 SQL 테이블은 다른 작업 영역의 폴더를 참조합니다.
다른 작업 영역의 데이터를 참조하는 SQL 테이블을 쿼리합니다. 이 테이블은 SQL 분석 엔드포인트의 다른 테이블처럼 사용할 수 있습니다. 다른 작업 영역에서 데이터를 참조하는 테이블을 조인할 수 있습니다.

참고 항목

SQL 테이블이 SQL 분석 엔드포인트에 즉시 표시되지 않는 경우 몇 분 정도 기다려야 할 수 있습니다. 다른 작업 영역의 데이터를 참조하는 SQL 테이블이 지연되어 생성됩니다.

분할된 데이터 분석

데이터 분할은 데이터 레이크에서 잘 알려진 데이터 액세스 최적화 기술입니다. 분할된 데이터 집합은 /year=<year>/month=<month>/day=<day> 형식의 계층적 폴더 구조에 저장되며, 여기서 year, month, day는 분할 열입니다. 분할된 데이터 집합을 사용하면 쿼리가 조건자 열을 값과 비교하여 데이터를 필터링하는 조건자를 사용하여 데이터를 필터링하는 경우 더 빠른 데이터 액세스가 가능합니다.

SQL 분석 엔드포인트는 분할된 Delta Lake 데이터 집합을 SQL 테이블로 표현하여 분석할 수 있습니다.

다음을 통해 공유

함께 사용하면 더 효율적 - 레이크하우스와 웨어하우스

레이크하우스 SQL 분석 엔드포인트란?

자동 메타데이터 발견

레이크하우스가 데이터 웨어하우징을 가능하게 하는 시나리오

Fabric 레이크하우스의 골드 레이어를 통한 분석

Lakehouse의 델타 테이블 및 OneLake의 다른 항목을 통해 서비스로 쿼리

Spark를 통한 데이터 엔지니어링 및 SQL을 통한 서비스

Open 레이크하우스의 골드 레이어와 통합

바로 가기를 통해 외부 데이터 레이크의 데이터 가상화

데이터 레이크에서 보관된 데이터 또는 기록 데이터 분석

바로 가기를 통한 Fabric 데이터의 데이터 가상화

분할된 데이터 분석

피드백

추가 리소스

다음을 통해 공유

함께 사용하면 더 효율적 - 레이크하우스와 웨어하우스

레이크하우스 SQL 분석 엔드포인트란?

자동 메타데이터 발견

레이크하우스가 데이터 웨어하우징을 가능하게 하는 시나리오

Fabric 레이크하우스의 골드 레이어를 통한 분석

Lakehouse의 델타 테이블 및 OneLake의 다른 항목을 통해 서비스로 쿼리

Spark를 통한 데이터 엔지니어링 및 SQL을 통한 서비스

Open 레이크하우스의 골드 레이어와 통합

바로 가기를 통해 외부 데이터 레이크의 데이터 가상화

데이터 레이크에서 보관된 데이터 또는 기록 데이터 분석

바로 가기를 통한 Fabric 데이터의 데이터 가상화

작업 영역 간 공유 및 쿼리

분할된 데이터 분석

관련 콘텐츠

피드백

추가 리소스