다음을 통해 공유


SQL 웨어하우스 크기 조정, 크기 조정 및 큐 동작

이 문서에서는 SQL 웨어하우스의 클러스터 크기 조정, 큐 및 자동 크기 조정 동작에 대해 설명합니다.

크기 조정 개요

SQL 웨어하우스는 웨어하우스의 쿼리 성능에 영향을 줄 수 있는 다양한 성능 기능 및 최적화가 있는 서버리스, pro 및 클래식 형식에서 사용할 수 있습니다. SQL 웨어하우스 유형참조하세요. Databricks는 사용 가능한 경우 서버리스 SQL 웨어하우스를 사용하는 것이 좋습니다.

모든 웨어하우스 유형의 경우 컴퓨팅 리소스에 대한 클러스터 크기 선택합니다. Databricks SQL 웨어하우스 크기를 최적화하려면 데이터 볼륨 또는 사용자 수를 고려하는 것 이상의 작업이 필요합니다. 쿼리 복잡성과 동시 쿼리 수도 성능의 핵심 요소입니다.

Databricks SQL 웨어하우스는 동적 동시성을 사용하여 이러한 요구를 처리합니다. 정적 용량 웨어하우스와 달리 Databricks SQL은 실시간으로 컴퓨팅 리소스를 조정하여 동시 로드를 관리하고 처리량을 최대화합니다. 각 웨어하우스 크기 범주에는 단위당 고정 컴퓨팅 용량이 있지만 시스템은 다양한 요구를 수용하도록 리소스 수를 조정합니다.

SQL 웨어하우스의 클러스터 크기

이 섹션의 표는 SQL 웨어하우스 클러스터 크기를 Azure Databricks 클러스터 드라이버 크기 및 작업자 수에 매핑합니다. 드라이버 크기는 pro 및 클래식 SQL 웨어하우스에만 적용됩니다.

참고 항목

서버리스 SQL 웨어하우스의 경우 클러스터 크기는 경우에 따라 해당 클러스터 크기에 대해 pro 및 클래식 SQL 웨어하우스 설명서에 나열된 것과 다른 인스턴스 유형을 사용할 수 있습니다. 일반적으로 서버리스 SQL 웨어하우스에 대한 클러스터 크기의 가격/성능 비율은 pro 및 클래식 SQL 웨어하우스의 가격/성능 비율과 유사합니다.

클러스터 크기: 드라이버의 인스턴스 유형(pro 및 클래식 SQL 웨어하우스에만 적용됨) 작업자 수
2X-Small Standard_E8ds_v4 1 x Standard_E8ds_v4
초소형 Standard_E8ds_v4 2 x Standard_E8ds_v4
적은 Standard_E16ds_v4 4 x Standard_E8ds_v4
중간 Standard_E32ds_v4 8 x Standard_E8ds_v4
대형 Standard_E32ds_v4 16 x Standard_E8ds_v4
X-Large Standard_E64ds_v4 32 x Standard_E8ds_v4
2X-Large Standard_E64ds_v4 64 x Standard_E8ds_v4
3X-Large Standard_E64ds_v4 128 x Standard_E8ds_v4
4X-Large Standard_E64ds_v4 256 x Standard_E8ds_v4

모든 작업자의 인스턴스 크기는 Standard_E8ds_v4입니다.

각 드라이버와 작업자에는 8개의 128GB 표준 LRS 관리 디스크가 연결되어 있습니다. 연결된 디스크는 매시간 요금이 청구됩니다.

클래식 및 프로 SQL 웨어하우스에 필요한 Azure vCPU 할당량

클래식 또는 프로 SQL 웨어하우스를 시작하려면 Azure 계정의 Standard_E8ds_v4 인스턴스에 적절한 Azure vCPU 할당량이 있어야 합니다. 다음 지침을 사용하여 필요한 vCPU 할당량을 확인합니다.

SQL 웨어하우스가 하나 또는 두 개뿐인 경우 클러스터의 각 코어에 대해 8개의 Azure vCPU를 사용할 수 있는지 확인합니다. 이렇게 하면 약 24시간마다 발생하는 웨어하우스의 다시 프로비저닝을 허용할 수 있는 적절한 Azure vCPU가 보장됩니다. SQL 웨어하우스에서 자동 크기 조정 또는 다중 클러스터 부하 분산을 사용하는 경우 승수를 늘려야 할 수 있습니다.

  • SQL 웨어하우스 수가 증가함에 따라 클러스터의 각 코어에 대해 4~8개의 Azure vCPU를 허용합니다. Databricks는 더 많은 수로 시작하고 안정성을 모니터링하는 것을 권장합니다.
  • SQL 웨어하우스에서 사용되는 Azure vCPU는 Data Science & Engineering이나 비 Databricks 워크로드가 사용하는 클러스터의 Azure vCPU에 추가로 사용됩니다.

추가 Azure vCPU 할당량을 요청하려면 Azure 설명서에서 표준 할당량: VM 시리즈별 제한 늘리기를 참조하세요.

참고 항목

이 표의 정보는 제품 또는 지역 가용성 및 작업 영역 유형에 따라 달라질 수 있습니다.

프로 및 클래식 SQL 웨어하우스에 대한 큐 대기 및 자동 스케일링

Azure Databricks는 SQL 웨어하우스에 할당된 클러스터의 쿼리 수를 결과를 계산하는 데 드는 비용에 따라 제한합니다. 웨어하우스당 클러스터의 업 스케일링은 쿼리 처리량, 들어오는 쿼리 속도 및 큐 크기를 기반으로 합니다. Databricks는 10개의 동시 쿼리마다 클러스터를 권장합니다. 모든 SQL 웨어하우스 유형에 대한 큐의 최대 쿼리 수는 1000개입니다.

Azure Databricks는 현재 실행 중인 모든 쿼리, 대기 중인 모든 쿼리, 다음 2분 안에 들어올 것으로 예상되는 쿼리를 처리하는 데 걸리는 시간에 따라 클러스터를 추가합니다.

  • 2분 미만이면 업스케일링하지 않습니다.
  • 2~6분이면 클러스터를 1개 추가합니다.
  • 6~12분이면 클러스터를 2개 추가합니다.
  • 12~22분이면 클러스터를 3개 추가합니다.

그렇지 않으면 Azure Databricks는 클러스터 3개를 추가하고 예상되는 쿼리 로드 15분마다 클러스터 1개 추가합니다.

또한 쿼리가 큐에서 5분 동안 대기하는 경우 웨어하우스는 항상 확장됩니다.

15분 동안 부하가 낮으면 Azure Databricks는 SQL 웨어하우스를 다운스케일링합니다. 지난 15분 동안의 최대 부하를 처리할 수 있는 충분한 클러스터를 유지합니다. 예를 들어 최대 부하가 25개의 동시 쿼리인 경우 Azure Databricks는 3개의 클러스터를 유지합니다.

서버리스 자동 스케일링 및 쿼리 큐 대기

IWM(지능형 워크로드 관리)은 많은 수의 쿼리를 빠르고 비용 효율적으로 처리하는 서버리스 SQL 웨어하우스의 기능을 향상시키는 기능 집합입니다. 기계 학습 모델을 사용하여 수신 쿼리의 리소스 수요를 예측하는 동시에 웨어하우스의 사용 가능한 컴퓨팅 용량을 실시간으로 모니터링하여 워크로드를 동적으로 관리합니다. 웨어하우스에서 이러한 신호 및 기타 신호를 추적하면 IWM이 워크로드 수요 변화에 대응할 수 있습니다.

이러한 동적 관리를 통해 IWM에서 다음을 수행할 수 있습니다.

  • 짧은 대기 시간을 유지하기 위해 컴퓨팅을 신속하게 확장합니다.
  • 하드웨어의 제한에 가까운 속도로 쿼리 수신을 제공합니다.
  • 수요가 낮을 때 비용을 최소화하기 위해 신속하게 축소합니다.

쿼리가 웨어하우스에 도착하면 IWM은 비용을 예측합니다. 동시에 IWM은 웨어하우스의 사용 가능한 컴퓨팅 용량을 실시간으로 모니터링합니다. 다음으로, IWM은 기계 학습 모델을 사용하여 수신 쿼리에 기존 컴퓨팅에서 사용할 수 있는 필요한 컴퓨팅이 있는지 예측합니다. 필요한 컴퓨팅이 없으면 쿼리가 큐에 추가됩니다. 필요한 컴퓨팅이 있으면 쿼리가 즉시 실행되기 시작합니다.

IWM은 실시간으로 큐를 모니터링합니다. 큐가 충분히 빠르게 감소하지 않으면 자동 크기 조정은 자동으로 더 많은 컴퓨팅을 프로비전합니다. 새 용량이 추가되면 큐에 대기 중인 쿼리가 새 컴퓨팅 리소스로 수신됩니다. 서버리스 SQL 웨어하우스를 사용하면 새 컴퓨팅을 빠르게 추가할 수 있습니다. 모든 SQL 웨어하우스 유형에 대한 큐의 최대 쿼리 수는 1000개입니다.

서버리스 SQL 웨어하우스 크기 조정

서버리스 SQL 웨어하우스의 크기를 처음에는 필요할 것이라고 생각하는 것보다 큰 크기로 시작하고, 테스트하면서 크기를 줄이세요. 서버리스 SQL 웨어하우스를 작은 크기로 시작하고 나중에 크게 만들지 마세요. 일반적으로 단일 서버리스 SQL 웨어하우스로 시작하고 Azure Databricks를 사용하여 서버리스 클러스터에 맞게 적정 크기로 조정하면서 워크로드의 우선순위를 지정하며 빠른 데이터 읽기를 지원합니다. 서버리스 자동 스케일링 및 쿼리 큐 대기를 참조하세요.

  • 지정된 서버리스 SQL 웨어하우스에 대한 쿼리 대기 시간을 줄이려면 다음을 수행합니다.
    • 쿼리가 디스크로 유출되는 경우 티셔츠 크기를 늘립니다.
    • 쿼리를 병렬 처리할 수 있는 경우 티셔츠 크기를 늘립니다.
    • 한 번에 여러 쿼리를 실행하는 경우 자동 스케일링을 위해 클러스터를 더 추가합니다.
  • 비용을 줄이려면 디스크에 데이터를 기록하거나 대기 시간을 크게 늘리지 않고 크기를 줄이는 것을 시도하세요.

성능을 모니터링하고 평가하는 도구

SQL 웨어하우스의 크기를 조정하는 데 도움이 되도록 다음 도구를 사용합니다.

  • 모니터링 페이지: 최대 쿼리 수를 검토합니다. 큐에 대기 중인 피크가 일반적으로 1보다 높은 경우 클러스터를 추가합니다. 모든 SQL 웨어하우스 유형에 대한 큐의 최대 쿼리 수는 1000개입니다. SQL 웨어하우스 모니터링을 참조하세요.
  • 쿼리 기록. 쿼리 기록을 참조하세요.
  • 쿼리 프로필(1보다 큰 디스크에 유출된 바이트 조회). 쿼리 프로필을 참조하세요.