상호 운용성 및 유용성에 대한 모범 사례
이 문서에서는 다음 섹션에 나열된 아키텍처 원칙에 따라 구성되는 상호 운용성 및 유용성에 대한 모범 사례를 설명합니다.
1. 통합에 대한 표준 정의
외부 통합에 표준 및 재사용 가능한 통합 패턴 사용
통합 표준은 다양한 시스템 및 애플리케이션에서 데이터를 표현, 교환 및 처리하는 방법에 대한 지침을 제공하기 때문에 중요합니다. 이러한 표준은 데이터가 다양한 원본 및 대상에서 호환되고, 고품질이며, 상호 운용 가능하도록 하는 데 도움이 됩니다.
Databricks Lakehouse에는 플랫폼의 거의 모든 측면을 프로그래밍 방식으로 관리할 수 있는 포괄적인 REST API 가 함께 제공됩니다. REST API 서버는 컨트롤 플레인에서 실행되며 Azure Databricks 플랫폼을 관리하기 위한 통합 엔드포인트를 제공합니다.
REST API는 항상 사용할 수 있는 가장 낮은 수준의 통합을 제공합니다. 그러나 Azure Databricks와 통합하는 기본 방법은 Databricks SDK 또는 CLI 도구와 같은 상위 수준 추상화 사용입니다. CLI 도구는 셸 기반이며 Databricks 플랫폼을 CI/CD 및 MLOps 워크플로에 쉽게 통합할 수 있습니다.
최적화된 커넥터를 사용하여 레이크하우스로 데이터 원본 수집
Azure Databricks는 데이터를 Delta Lake로 수집할 수 있도록 하는 다양한 방법을 제공합니다.
Databricks는 데이터의 거의 실시간 데이터 수집을 위해 Apache Kafka와 같은 스트림 메시징 서비스에 최적화된 커넥터를 제공합니다.
Databricks는 많은 클라우드 네이티브 데이터 시스템에 기본 제공 통합을 제공하고 확장 가능한 JDBC 지원을 제공하여 다른 데이터 시스템에 연결합니다.
ETL 없이 데이터 원본을 통합하는 한 가지 옵션은 Lakehouse Federation입니다. 레이크하우스 페더레이션은 Databricks에 대한 쿼리 페더레이션 플랫폼입니다. 쿼리 페더레이션이라는 용어는 사용자와 시스템이 모든 데이터를 통합 시스템으로 마이그레이션하지 않고도 여러 데이터 원본에 대해 쿼리를 실행할 수 있도록 하는 기능 컬렉션을 설명합니다. Databricks는 Unity 카탈로그를 사용하여 쿼리 페더레이션을 관리합니다. Unity 카탈로그의 데이터 거버넌스 및 데이터 계보 도구는 Databricks 작업 영역의 사용자가 실행하는 모든 페더레이션 쿼리에 대해 데이터 액세스가 관리 및 감사되도록 합니다.
참고 항목
Lakehouse 페더레이션 원본을 사용하는 Databricks 플랫폼의 모든 쿼리는 해당 원본으로 전송됩니다. 원본 시스템에서 부하를 처리할 수 있는지 확인합니다. 또한 원본 시스템이 다른 클라우드 지역 또는 클라우드에 배포되는 경우 각 쿼리에 대한 송신 비용이 발생합니다.
운영 데이터베이스에서 높은/동시 부하를 방지하고 송신 비용을 줄이려면 구체화된 뷰를 통해 기본 데이터베이스에 대한 액세스를 오프로드하는 것이 좋습니다.
인증된 파트너 도구 사용
조직에는 요구 사항이 다르며 단일 도구가 모두 충족할 수 없습니다. 파트너 연결을 사용하면 데이터 수집, 준비 및 변환, BI 및 시각화, 기계 학습, 데이터 품질 등 레이크하우스의 모든 측면을 다루는 파트너와 쉽게 통합할 수 있습니다. 파트너 연결을 사용하면 선택한 Databricks 기술 파트너와 함께 평가판 계정을 만들고 Azure Databricks 작업 영역을 Azure Databricks UI의 파트너 솔루션에 연결할 수 있습니다. Databricks Lakehouse에서 데이터를 사용하여 파트너 솔루션을 시도한 다음 비즈니스 요구 사항을 가장 잘 충족하는 솔루션을 채택합니다.
데이터 엔지니어링 파이프라인의 복잡성 감소
데이터 엔지니어링 파이프라인의 복잡성을 줄이는 데 투자하면 확장성, 민첩성 및 유연성을 통해 더 빠르게 확장하고 혁신할 수 있습니다. 간소화된 파이프라인을 사용하면 작업 오케스트레이션, 클러스터 관리, 모니터링, 데이터 품질 및 오류 처리와 같은 데이터 엔지니어링 파이프라인의 모든 운영 요구 사항을 보다 쉽게 관리하고 조정할 수 있습니다.
Delta Live Tables는 안정적이고 유지 관리가 가능하며 테스트할 수 있는 데이터 처리 파이프라인을 빌드하기 위한 프레임워크입니다. 사용자는 데이터에 대해 수행할 변환을 정의하고, Delta Live Tables는 작업 오케스트레이션, 클러스터 관리, 모니터링, 데이터 품질 및 오류 처리를 처리합니다. Delta Live Tables이란?.
자동 로더는 새로운 데이터 파일이 클라우드 스토리지에 도착하면 점진적이고 효율적으로 처리합니다. 클라우드 스토리지에서 데이터 파일을 안정적으로 읽을 수 있습니다. 델타 라이브 테이블과 자동 로더의 중요한 측면은 선언적 특성입니다. 이러한 테이블이 없으면 알림 서비스 및 큐 서비스와 같은 다양한 클라우드 서비스를 통합하는 복잡한 파이프라인을 빌드하여 이벤트를 기반으로 클라우드 파일을 안정적으로 읽고 일괄 처리 및 스트리밍 원본을 안정적으로 결합해야 합니다.
자동 로더 및 델타 라이브 테이블은 시스템 종속성과 복잡성을 줄이고 클라우드 스토리지와의 상호 운용성 및 일괄 처리 및 스트리밍과 같은 다양한 패러다임 간의 상호 운용성을 크게 향상시킵니다. 부작용으로 파이프라인의 단순성은 플랫폼의 유용성을 높입니다.
배포 및 유지 관리를 위해 IaC(Infrastructure as Code) 사용
HashiCorp Terraform은 여러 클라우드 제공업체에서 안전하고 예측 가능한 클라우드 인프라를 만드는 데 널리 사용되는 오픈 소스 도구입니다. 운영 우수성 참조 : 배포 및 유지 관리를 위한 코드로 인프라 사용
2. 열린 인터페이스 및 개방형 데이터 형식 활용
개방형 데이터 형식 사용
개방형 데이터 형식을 사용하는 것은 사용 제한이 없음을 의미합니다. 이는 분석을 위해 데이터에 액세스하고 사용하는 장벽을 제거하고 비즈니스 인사이트를 유도하기 때문에 중요합니다. Apache Spark에서 빌드된 형식과 같은 개방형 형식은 ACID 트랜잭션, 통합 스트리밍 및 일괄 처리 데이터 처리를 지원하여 성능을 향상시키는 기능을 추가합니다. 또한 오픈 소스 커뮤니티 중심이므로 커뮤니티는 지속적으로 기존 기능을 개선하고 새 기능을 추가하여 사용자가 프로젝트를 최대한 활용하기 위해 노력하고 있습니다.
데이터 인텔리전스 플랫폼에서 사용되는 기본 데이터 형식은 안정성 기능부터 성능 향상에 이르기까지 많은 이점을 제공하는 완전히 개방된 데이터 형식인 Delta Lake입니다. 성능 효율성을 위해 ACID 트랜잭션 및 모범 사례를 지원하는 데이터 형식 사용을 참조하세요.
Delta Lake는 개방적인 특성으로 인해 대규모 에코시스템을 갖추고 있습니다. 수십 개의 타사 도구 및 애플리케이션이 Delta Lake를 지원합니다.
상호 운용성을 더욱 향상시키기 위해 Delta Universal Format(UniForm) 을 사용하면 Iceberg 판독기 클라이언트를 사용하여 델타 테이블을 읽을 수 있습니다. UniForm은 데이터를 다시 작성하지 않고 자동으로 Iceberg 메타데이터를 생성하므로 Iceberg 클라이언트는 Iceberg 테이블처럼 델타 테이블을 읽을 수 있습니다. 데이터 파일의 단일 복사본은 두 형식을 모두 제공합니다.
모든 데이터 자산에 대해 보안 데이터 및 AI 공유 사용
데이터와 AI 자산을 공유하면 공동 작업 및 의사 결정이 향상됩니다. 그러나 데이터를 공유할 때는 제어를 유지하고, 데이터를 보호하며, 관련 데이터 공유 법률 및 규정을 준수하는 것이 중요합니다.
델타 공유 는 사용하는 컴퓨팅 플랫폼에 관계없이 다른 조직과 데이터를 안전하게 공유하기 위해 Databricks에서 개발한 개방형 프로토콜입니다. Databricks 작업 영역 외부의 사용자와 데이터를 공유하려는 경우 Databricks를 사용하는지 여부에 관계없이 열린 델타 공유를 사용하여 데이터를 안전하게 공유할 수 있습니다. Databricks-to-Databricks Delta Sharing은 Unity 카탈로그가 활성화된 Databricks 작업 공간을 보유한 사용자와 데이터를 공유할 때 사용하는 방식입니다.
두 경우 모두 테이블, 뷰, 볼륨, 모델 및 Notebook을 공유할 수 있습니다.
열려 있는 델타 공유 프로토콜을 사용하여 파트너와 데이터를 공유합니다.
델타 공유 는 레이크하우스에서 모든 컴퓨팅 플랫폼으로 라이브 데이터를 안전하게 공유하기 위한 개방형 솔루션을 제공합니다. 받는 사람은 Databricks 플랫폼, 동일한 클라우드 또는 클라우드에 있을 필요가 없습니다. 델타 공유는 기본적으로 Unity 카탈로그와 통합되어 조직에서 엔터프라이즈 전체에서 공유 데이터 및 AI 자산을 중앙에서 관리 및 감사하고 보안 및 규정 준수 요구 사항을 충족하는 데이터 및 AI 자산을 자신 있게 공유할 수 있도록 합니다.
데이터 공급자는 데이터를 복제하거나 다른 시스템으로 이동하지 않고 데이터 플랫폼에 저장된 위치에서 라이브 데이터 및 AI 모델을 공유할 수 있습니다. 이 방법은 데이터 공급자가 클라우드, 지리 또는 데이터 플랫폼에서 각 데이터 소비자에게 데이터를 여러 번 복제할 필요가 없으므로 데이터 및 AI 공유의 운영 비용을 줄입니다.
Databricks 사용자 간에 Databricks-to-Databricks 델타 공유를 사용합니다.
Unity 카탈로그 메타스토어에 액세스할 수 없는 사용자와 데이터를 공유하려는 경우 수신자가 Unity 카탈로그에 사용하도록 설정된 Databricks 작업 영역에 액세스할 수 있는 한 Databricks 간 Delta Sharing을 사용할 수 있습니다. Databricks-Databricks 공유를 사용하면 다른 Databricks 계정, 클라우드 지역 및 클라우드 공급자의 사용자와 데이터를 공유할 수 있습니다. 사용자 고유의 Databricks 계정에서 다양한 Unity 카탈로그 메타스토어에서 데이터를 안전하게 공유하는 좋은 방법입니다.
ML 수명 주기 관리에 개방형 표준 사용
오픈 소스 데이터 형식을 사용하는 것과 마찬가지로 AI 워크플로에 대해 개방형 표준을 사용하면 유연성, 민첩성, 비용 및 보안 측면에서 비슷한 이점이 있습니다.
MLflow는 ML 및 AI 수명 주기를 관리하기 위한 오픈 소스 플랫폼입니다. Databricks는 엔터프라이즈 보안 기능, 고가용성 및 실험 및 실행 관리 및 Notebook 수정 내용 추적과 같은 기타 Databricks 작업 영역 기능과 통합된 완전히 관리되고 호스트된 버전의 MLflow를 제공합니다.
기본 구성 요소는 ML 및 딥 러닝 모델을 자동으로 기록 및 추적하기 위한 실험 추적, 기계 학습 모델 패키징을 위한 표준 형식으로 모델, Unity 카탈로그와 통합된 모델 레지스트리 및 확장 가능한 엔터프라이즈급 모델 서비스입니다.
3. 새 사용 사례 구현 간소화
플랫폼 전체에서 셀프 서비스 환경 제공
사용자가 필요에 따라 도구와 기능을 사용할 수 있는 자율성이 있는 플랫폼의 몇 가지 이점이 있습니다. 셀프 서비스 플랫폼을 만드는 데 투자하면 사용자 프로비전, 문제 해결 및 액세스 요청 처리에 대한 사용자 개입의 필요성을 최소화하여 더 많은 사용자에게 서비스를 제공하고 효율성을 높일 수 있도록 쉽게 확장할 수 있습니다.
Databricks Data Intelligence 플랫폼에는 셀프 서비스 환경을 제공하는 데 필요한 모든 기능이 있습니다. 필수 승인 단계가 있을 수 있지만 사업부에서 Lakehouse에 대한 액세스를 요청할 때 설치를 완전히 자동화하는 것이 가장 좋습니다. 새 환경을 자동으로 프로비전하고, 사용자를 동기화하고, 인증에 SSO를 사용하고, 공유 데이터에 대한 액세스 제어를 제공하고, 자체 데이터에 대한 별도의 개체 저장소를 제공합니다. 의미 체계적으로 일관되고 비즈니스에 대비한 데이터 세트의 중앙 데이터 카탈로그와 함께 새로운 사업부는 Lakehouse 기능 및 필요한 데이터에 빠르고 안전하게 액세스할 수 있습니다.
서버리스 컴퓨팅 사용
Azure Databricks 플랫폼의 서버리스 컴퓨팅의 경우 컴퓨팅 계층은 고객의 Databricks 계정에서 실행됩니다. 클라우드 관리자는 더 이상 할당량 조정, 네트워크 리소스 만들기 및 유지 관리 및 청구 원본에 연결해야 하는 복잡한 클라우드 환경을 관리할 필요가 없습니다. 사용자는 0에 가까운 클러스터 시작 대기 시간과 향상된 쿼리 동시 실행을 활용할 수 있습니다.
미리 정의된 컴퓨팅 템플릿 사용
미리 정의된 템플릿은 사용자가 컴퓨팅 리소스를 사용하거나 만드는 방법을 제어하는 데 도움이 됩니다. 사용자 클러스터 만들기를 지정된 설정 또는 특정 숫자로 제한하거나, 사용자 인터페이스를 간소화하거나, 클러스터당 최대 비용을 제한하여 비용을 제어합니다.
데이터 인텔리전스 플랫폼은 다음 두 가지 방법으로 이 작업을 수행합니다.
- 공유 클러스터를 사용자에게 즉각적인 환경으로 제공합니다. 이러한 클러스터에서 매우 적은 수의 노드로 자동 크기 조정을 사용하여 높은 유휴 비용을 방지합니다.
- 표준화된 환경의 경우 컴퓨팅 정책을 사용하여 클러스터 크기 또는 기능을 제한하거나 티셔츠 크기의 클러스터(S, M, L)를 정의합니다.
AI 기능을 사용하여 생산성 향상
AI 도구는 생산성 향상 외에도 오류의 패턴을 식별하고 입력을 기반으로 추가 인사이트를 제공하는 데 도움이 될 수 있습니다. 전반적으로 이러한 도구를 개발 프로세스에 통합하면 오류를 크게 줄이고 의사 결정을 용이하게 하여 릴리스 시간을 단축할 수 있습니다.
AI 기반 지식 엔진인 Databricks IQ는 데이터 인텔리전스 플랫폼의 핵심입니다. Unity 카탈로그 메타데이터를 활용하여 조직 전체에서 테이블, 열, 설명 및 인기 있는 데이터 자산을 이해하여 맞춤형 답변을 제공합니다. 다음과 같이 플랫폼 작업 시 생산성을 향상시키는 몇 가지 기능을 사용할 수 있습니다.
- Databricks Assistant 를 사용하면 대화형 인터페이스를 통해 데이터를 쿼리하여 Databricks에서 생산성을 높일 수 있습니다. 작업을 영어로 설명하고 마법사가 SQL 쿼리를 생성하고 복잡한 코드를 설명하고 오류를 자동으로 수정할 수 있도록 합니다.
- Unity 카탈로그에서 관리하는 테이블 또는 테이블 열에 대한 AI 생성 주석 은 메타데이터 관리 프로세스의 속도를 높입니다. 그러나 AI 모델이 항상 정확한 것은 아니며 저장하기 전에 주석을 검토해야 합니다. Databricks는 AI 생성 주석에 대한 부정확성을 확인하기 위해 사용자 검토를 강력히 권장합니다.
4. 데이터 일관성 및 유용성 보장
비즈니스에서 신뢰할 수 있는 재사용 가능한 제품으로 데이터 제공
AI 및 데이터 중심이 되려는 조직은 종종 내부 팀에 고품질의 신뢰할 수 있는 데이터를 제공해야 합니다. 품질 및 유용성의 우선 순위를 지정하는 한 가지 방법은 잘 정의된 "데이터 제품"을 만들어 게시된 데이터 자산에 제품 사고를 적용하는 것입니다. 이러한 데이터 제품을 빌드하면 조직에서 데이터 및 AI 목표에 대한 표준과 신뢰할 수 있는 비즈니스 진리 기반을 구축할 수 있습니다. 데이터 제품은 궁극적으로 사용자와 애플리케이션이 적절한 품질의 적절한 형식으로 적절한 데이터를 적시에 가지고 있을 때 가치를 제공합니다. 이 가치는 전통적으로 낮은 비용, 더 빠른 프로세스 및 위험을 통해 보다 효율적인 운영의 형태로 실현되었지만, 최신 데이터 제품은 조직의 산업 또는 파트너 에코시스템 내에서 새로운 부가 가치 제공 및 데이터 공유 기회를 위한 길을 열 수 있습니다.
Databricks를 사용하여 고품질 및 신뢰할 수 있는 데이터 제품 빌드 블로그 게시물을 참조하세요.
기업 전체에서 의미 체계적으로 일관된 데이터 제품 게시
데이터 레이크는 일반적으로 여러 원본 시스템의 데이터를 포함합니다. 이러한 시스템은 동일한 개념(예: 고객 및 계정)에 대해 이름이 다르거나 동일한 식별자를 사용하여 다른 개념을 참조할 수 있습니다. 비즈니스 사용자가 이러한 데이터 집합을 의미 있는 방식으로 쉽게 결합할 수 있도록 의미상 일관성을 유지하려면 모든 원본에서 데이터를 동질적으로 만들어야 합니다. 또한 분석에 중요한 일부 데이터의 경우 수익 인식과 같은 내부 비즈니스 규칙을 올바르게 적용해야 합니다. 모든 사용자가 올바르게 해석된 데이터를 사용하려면 이러한 규칙이 포함된 데이터 세트를 사용할 수 있도록 하고 Unity 카탈로그에 게시해야 합니다. 원본 데이터에 대한 액세스는 올바른 사용을 이해하는 팀으로 제한해야 합니다.
검색 및 계보를 위한 중앙 카탈로그 제공
검색 및 계보를 위한 중앙 카탈로그를 사용하면 데이터 소비자가 엔터프라이즈 전체의 여러 원본에서 데이터에 액세스하여 중앙 거버넌스 팀의 운영 오버헤드를 줄일 수 있습니다.
Unity 카탈로그에서 관리자 및 데이터 관리자는 Azure Databricks 계정의 모든 작업 영역에서 사용자와 데이터에 대한 액세스를 중앙에서 관리합니다 . 다른 작업 영역의 사용자는 동일한 데이터를 공유할 수 있으며 Unity 카탈로그에 중앙에서 부여된 사용자 권한에 따라 데이터에 함께 액세스할 수 있습니다.
데이터 검색을 위해 Unity 카탈로그는 다음과 같은 기능을 가진 사용자를 지원합니다.
- 카탈로그 탐색기는 많은 Unity 카탈로그 기능의 기본 사용자 인터페이스입니다. 카탈로그 탐색기를 사용하여 스키마 세부 정보를 보고, 샘플 데이터를 미리 보고, 테이블 세부 정보 및 속성을 볼 수 있습니다. 관리자는 소유자를 보고 변경할 수 있으며 관리자 및 데이터 개체 소유자는 권한을 부여하고 취소할 수 있습니다. Databricks Search를 사용하면 사용자가 데이터 자산(예: 테이블, 열, 보기, 대시보드, 모델 등)을 쉽고 원활하게 찾을 수 있습니다. 사용자에게 검색 요청과 관련되고 액세스 권한이 있는 결과가 표시됩니다.
- 모든 쿼리의 데이터 계보 는 Azure Databricks 클러스터 또는 SQL 웨어하우스에서 실행됩니다. 계보는 모든 언어에 대해 지원되며 열 수준까지 캡처됩니다. 계보 데이터에는 쿼리와 관련된 Notebook, 작업, 대시보드가 포함됩니다. 계보는 카탈로그 탐색기에서 거의 실시간으로 시각화되고 Azure Databricks REST API를 사용하여 검색할 수 있습니다.
엔터프라이즈가 사용자에게 모든 데이터 플랫폼의 모든 데이터에 대한 전체적인 보기를 제공할 수 있도록 Unity 카탈로그는 엔터프라이즈 데이터 카탈로그("카탈로그 카탈로그"라고도 함)와의 통합을 제공합니다.