다음을 통해 공유


클라우드 규모 분석에 대한 질문과 대답

다음은 클라우드 규모 분석에 대해 자주 묻는 질문입니다.

Storage 계정

세 개의 별도 스토리지 계정이 필요한 이유는 무엇인가요? 각 계층에 대해 컨테이너 3개(원시, 구체화, 큐레이팅)가 있는 계정을 하나만 가질 수 없나요?

오늘날 대부분의 데이터 분석 패턴은 원시, 구체화, 큐레이팅의 세 계층으로 존재합니다. 동일한 스토리지에 보관할 수 있지만 대규모 구현의 경우 단일 스토리지 계정 내에서 사용할 수 있는 허용된 RBAC(역할 기반 액세스 제어) 및 ACL(액세스 제어 목록) 권한 수를 초과하는 문제가 발생합니다. 별도의 스토리지 계정을 사용하는 경우 대부분의 구현에서 이 문제를 방지할 수 있습니다.

다른 이유는 클라우드 규모 분석에 대한 Azure Data Lake Storage 개요에서 설명합니다.

Databricks

제품별 Azure Databricks 작업 영역을 배포해야 하나요?

랜딩 존 내에서 공유 제품 Azure Databricks 분석 및 데이터 과학 작업 영역을 사용하는 것이 좋습니다.

데이터 플랫폼 운영 팀의 관리 오버헤드를 줄이기 위해 이러한 결정을 내렸습니다. Azure Databricks에는 Azure 정책에 통합되지 않은 독립 실행형 정책 집합이 있습니다. 대규모 환경에서 더 많은 Azure Databricks 작업 영역을 설정하면 더 많은 관리 오버헤드가 발생합니다. 예를 들어 정책과 지원되는 Apache Hive 버전을 유지 관리하고, ADB 버전을 업데이트하고, 외부 Apache Hive 메타스토어를 적용합니다. 중앙 플랫폼 팀이 Databricks 작업 영역 내에서 특정 설정을 적용할 수 있는 방법은 없습니다. 데이터 플랫폼 운영 팀이 필요한 클러스터 정책 및 초기화 스크립트를 정의할 수 있는 랜딩 존에 제품 팀을 위한 공유 작업 영역을 갖는 것이 좋습니다.

랜딩 존과 프라이빗 엔드포인트 간에 VNet 피어링을 사용하는 것이 좋습니다. Azure Databricks의 경우 VNet 삽입을 사용합니다. 모든 엔드포인트에 대한 직접적인 가시선이 있으므로 연결 문제가 없습니다.

다음 단계

Azure의 클라우드 규모 분석을 사용한 수집 프로세스