다음을 통해 공유


데이터 레이크하우스의 성능 효율성

이 문서에서는 부하 변경에 적응하는 시스템의 기능을 언급하는 성능 효율성 핵심 요소의 아키텍처 원칙을 설명합니다.

Databricks의 성능 효율성 레이크하우스 아키텍처 다이어그램 .

성능 효율성 원칙

  1. 서버리스 아키텍처 사용

    서버리스 아키텍처는 고객이 클라우드에서 컴퓨팅 인프라를 운영하고 유지 관리할 필요가 없습니다. 이렇게 하면 관리형 서비스가 클라우드 규모로 작동하기 때문에 클라우드 인프라 관리의 운영 오버헤드가 제거되고 트랜잭션 비용이 절감됩니다. 또한 즉시 가용성, 기본 제공 보안을 제공하며 최소한의 구성 또는 관리가 필요합니다.

  2. 성능을 위한 워크로드 설계

    데이터 엔지니어링 파이프라인과 같은 반복된 워크로드의 경우 성능은 결코 후유증이 되어서는 안 됩니다. 데이터는 다음이어야 합니다.

    • 개체 메모리에서 효율적으로 읽습니다.
    • 효율적으로 변환되었습니다.
    • 소비를 위해 효율적으로 게시됩니다.

    또한 대부분의 파이프라인 또는 사용 패턴은 시스템 체인을 사용합니다. 최상의 성능을 얻으려면 최상의 성능을 위해 전체 체인을 고려하고 선택해야 합니다.

  3. 개발을 위한 범위 내에서 성능 테스트 실행

    모든 개발 워크로드는 지속적인 성능 테스트를 거쳐야 합니다. 테스트를 통해 코드 베이스를 변경해도 워크로드 성능에 부정적인 영향을 주지 않습니다. 테스트를 실행하기 위한 정기적인 일정을 설정합니다. 예약된 이벤트의 일부 또는 연속 통합 빌드 파이프라인의 일부로 테스트를 실행합니다.

    성능 기준을 설정하고 워크로드 및 지원 인프라의 현재 효율성을 결정합니다. 기준에 대한 성능을 측정하면 개선 전략을 제공하고 애플리케이션이 비즈니스 목표를 충족하는지 확인할 수 있습니다.

    성능에 영향을 미칠 수 있는 병목 상태를 식별합니다. 이러한 병목 현상은 코드 오류 또는 서비스의 잘못된 구성으로 인해 발생할 수 있습니다. 일반적으로 부하가 증가함에 따라 병목 현상은 get 악화됩니다.

  4. 성능 모니터링

    리소스 및 서비스에 계속 액세스할 수 있고 성능이 사용자 기대치 또는 워크로드 요구 사항을 충족하는지 확인합니다. 모니터링은 병목 현상이나 리소스 부족을 식별하고, optimize 구성 오류와 파이프라인/워크로드 오류를 감지하는 데 도움이 될 수 있습니다.

다음: 성능 효율성 모범 사례

성능 효율성에 대한 모범 사례를 참조하세요.