Azure Databricks의 모든 델타 항목은 무엇인가요?
이 문서에서는 Azure Databricks에서 Delta라는 공동 브랜드 기술을 소개합니다. Delta는 Delta Lake 오픈 소스 프로젝트와 관련된 기술을 나타냅니다.
이 문서에서는 다음과 같은 답변을 제공합니다.
- Azure Databricks의 델타 기술은 무엇인가요?
- 역할은 무엇입니까? 또는 무엇을 위해 사용됩니까?
- 서로 어떻게 관련되고 구별되는가?
델타 항목의 용도는 무엇인가요?
Delta는 Databricks 레이크하우스에서 데이터와 tables를 저장하는 기초가 되는 Delta Lake에서 도입된 용어입니다. Delta Lake는 ACID 트랜잭션 및 확장 가능한 메타데이터 처리를 위해 파일 기반 트랜잭션 로그를 사용하여 Parquet 데이터 파일을 확장하여 트랜잭션 실시간 및 일괄 처리 빅 데이터를 처리하기 위한 통합 데이터 관리 시스템으로 고안되었습니다.
Delta Lake: Lakehouse에 대한 OS 데이터 관리
Delta Lake 는 클라우드 스토리지에 저장된 데이터(AWS S3, Azure Storage 및 GCS)에 트랜잭션 스토리지 계층을 추가하여 데이터 레이크에 안정성을 제공하는 오픈 소스 스토리지 계층입니다. ACID 트랜잭션, 데이터 버전 관리 및 롤백 기능을 허용합니다. 이를 통해 일괄 처리 및 스트리밍 데이터를 통합된 방식으로 처리할 수 있습니다.
델타 tables 이 스토리지 계층 위에 빌드되고 table 추상화가 제공되므로 SQL 및 DataFrame API를 사용하여 대규모 구조화된 데이터로 쉽게 작업할 수 있습니다.
델타 tables: 기본 데이터 table 아키텍처
Delta table Azure Databricks의 기본 데이터 table 형식이며 Delta Lake 오픈 소스 데이터 프레임워크의 기능입니다. 델타 tables 일반적으로 데이터 레이크에 사용되며, where 데이터는 스트리밍 또는 대규모 일괄 처리를 통해 수집됩니다.
참조
- Delta Lake 빠른 시작: table 만들기
- Delta Lake를 업데이트하고 수정하는 중입니다 tables.
- DeltaTable 클래스: Delta tables프로그래밍 방식으로 상호 작용하기 위한 기본 클래스입니다.
Delta Live Tables: 데이터 파이프라인
Delta Live Tables는 여러 Delta tables간의 데이터 흐름을 관리하여 ETL 개발 및 관리를 통해 데이터 엔지니어의 작업을 간소화합니다. 파이프라인은 Delta Live Tables의 주요 실행 단위입니다. Delta Live Tables 선언적 파이프라인 개발, 향상된 데이터 안정성 및 클라우드 규모 프로덕션 작업을 제공합니다. 사용자는 동일한 table 일괄 처리 및 스트리밍 작업을 모두 수행할 수 있으며 데이터를 쿼리에 즉시 사용할 수 있습니다. 데이터에 대해 수행할 변환을 정의하고 Delta Live Tables 작업 오케스트레이션, 클러스터 관리, 모니터링, 데이터 품질 및 오류 처리를 관리합니다. 델타 라이브 Tables의 향상된 자동 확장은 급변하고 예측할 수 없는 스트리밍 워크로드를 처리할 수 있습니다.
Delta Live Tables 자습서참조하세요.
Delta tables vs. Delta Live Tables
Delta table는 tables에 데이터를 저장하는 방식이고, Delta Live Tables는 이러한 tables 간의 데이터 흐름을 선언적으로 설명할 수 있습니다. Delta Live Tables는 많은 델타 tables을 생성하고 최신 상태로 유지하여 관리하는 선언형 프레임워크입니다. 간단히 말해서 Delta tables 데이터 table 아키텍처이고 Delta Live Tables 데이터 파이프라인 프레임워크입니다.
델타: 오픈 소스 또는 독점?
Azure Databricks 플랫폼의 장점은 고객을 독점 도구로 잠그지 않는다는 것입니다. 대부분의 기술은 Azure Databricks가 기여하는 오픈 소스 프로젝트에 의해 구동됩니다.
델타 OSS 프로젝트는 다음과 같은 예입니다.
- Delta Lake 프로젝트: 레이크하우스에 대한 오픈 소스 스토리지입니다.
- 델타 공유 프로토콜: 보안 데이터 공유를 위한 개방형 프로토콜입니다.
Delta Live Tables Azure Databricks의 독점 프레임워크입니다.
Azure Databricks의 다른 델타 항목은 무엇인가요?
다음은 해당 이름에 델타를 포함하는 다른 기능에 대한 설명입니다.
Delta Sharing
보안 데이터 공유를 위한 개방형 표준인 델타 공유 는 컴퓨팅 플랫폼에 관계없이 조직 간에 데이터 공유를 가능하게 합니다.
델타 엔진
Databricks에 포함된 Delta Lake 오픈 소스 기술을 사용하는 빅 데이터에 대한 쿼리 최적화 프로그램입니다. 델타 엔진은 계산을 데이터에 푸시하여 Spark SQL, Databricks SQL 및 DataFrame 작업의 성능을 최적화합니다.
Delta Lake 트랜잭션 로그(AKA DeltaLogs)
사용자가 table 변경한 모든 변경 내용과 Delta Lake에서 원자성보장하는 메커니즘을 추적하는 단일 소스입니다. GitHub에서 델타 트랜잭션 로그 프로토콜 을 참조하세요.
트랜잭션 로그는 가장 중요한 여러 기능을 통해 실행되는 공통 스레드이기 때문에 Delta Lake를 이해하는 데 핵심적인 요소입니다.
- ACID 거래
- 확장 가능한 메타데이터 처리
- 시간 이동
- 기타.