다음을 통해 공유


Synapse 구현 성공 방법론: 환경 평가

참고 항목

이 문서는 디자인에 따른 Azure Synapse 구현 성공 문서 시리즈의 일부를 구성합니다. 시리즈에 대한 개요는 Azure Synapse 구현 성공 디자인을 참조하세요.

Azure Synapse Analytics를 구현하는 첫 번째 단계는 환경 평가를 수행하는 것입니다. 평가는 기존 환경, 환경 요구 사항, 프로젝트 요구 사항, 제약 조건, 일정 및 문제점에 대해 사용 가능한 모든 정보를 수집할 수 있는 기회를 제공합니다. 이 정보는 이후 평가 및 검사점 작업의 기초가 됩니다. 계획, 디자인 및 개발할 때 프로젝트 솔루션의 유효성을 검사하고 비교할 때 매우 유용합니다. 모든 정보를 수집하고 관련 그룹과 필요한 토론을 하는 데 충분한 시간을 할애하는 것이 좋습니다. 관련 그룹에는 프로젝트 관련자, 비즈니스 사용자, 솔루션 디자이너, 기존 솔루션 및 환경의 SME(실무 전문가)가 포함될 수 있습니다.

평가는 솔루션 디자인을 평가하고 Azure Synapse를 구현하기 위한 정보에 입각한 기술 권장 사항을 만드는 데 도움이 되는 가이드가 됩니다.

워크로드 평가

워크로드 평가는 환경, 분석 워크로드 역할, ETL/ELT, 네트워킹 및 보안, Azure 환경, 데이터 사용량과 관련됩니다.

환경

환경에 대해서는 다음 사항을 평가합니다.

  • 기존 분석 워크로드를 설명합니다.
    • 워크로드(예: 데이터 웨어하우스 또는 빅 데이터)는 무엇인가요?
    • 이 워크로드가 비즈니스에 어떤 도움이 되나요? 사용 사례 시나리오는 무엇인가요?
    • 이 분석 플랫폼과 잠재적인 마이그레이션의 비즈니스 영향 요소는 무엇인가요?
    • 기존 아키텍처, 디자인 및 구현 선택에 대한 세부 정보를 수집합니다.
    • 기존의 모든 업스트림 및 다운스트림 종속 구성 요소와 소비자에 대한 세부 정보를 수집합니다.
  • 기존 데이터 웨어하우스(예: Microsoft SQL Server, Microsoft APS(Analytics Platform System), Netezza, Snowflake 또는 Teradata)를 마이그레이션하고 있나요?
  • Cloudera 또는 Hortonworks와 같은 빅 데이터 플랫폼을 마이그레이션하고 있나요?
  • 현재 분석 환경에 대한 아키텍처 및 데이터 흐름 다이어그램을 수집합니다.
  • 계획된 분석 워크로드의 데이터 원본은 어디에 있나요(Azure, 기타 클라우드 공급자 또는 온-프레미스)?
  • 기존 데이터 세트의 총 크기는 얼마인가요(기록 및 증분)? 데이터 세트의 현재 성장률은 얼마인가요? 향후 2~5년 동안 데이터 세트의 예상 성장률은 얼마인가요?
  • 기존 데이터 레이크가 있나요? 파일 형식(예: Parquet 또는 CSV), 파일 크기 및 보안 구성에 대해 가능한 한 많은 세부 정보를 수집합니다.
  • 처리하고 분석해야 하는 반구조화되거나 비구조화된 데이터가 있나요?
  • 데이터 처리(일괄 처리 또는 실시간 처리)의 특성을 설명합니다.
  • 관계형 데이터, 데이터 레이크 또는 기타 원본에서 대화형 데이터 탐색이 필요하나요?
  • 작동 데이터 원본에서 실시간 데이터 분석 및 탐색이 필요하나요?
  • 현재 환경의 문제점과 한계는 무엇인가요?
  • 현재 어떤 원본 제어 및 DevOps 도구를 사용하고 있나요?
  • 하이브리드(클라우드 및 온-프레미스) 분석 솔루션, 클라우드 전용 또는 다중 클라우드를 빌드하기 위한 사용 사례가 있나요?
  • 기존 클라우드 환경에 대한 정보를 수집합니다. 단일 클라우드 공급자인가요 아니면 다중 클라우드 공급자인가요?
  • 향후 클라우드 환경에 대한 계획을 수집합니다. 단일 클라우드 공급자가 될 것인가 아니면 다중 클라우드 공급자가 될 것인가?
  • 기존 환경의 RPO/RTO/HA/SLA 요구 사항은 무엇인가요?
  • 계획된 환경의 RPO/RTO/HA/SLA 요구 사항은 무엇인가요?

분석 워크로드 역할

분석 워크로드 역할의 경우 다음 사항을 평가합니다.

  • 다양한 역할(데이터 과학자, 데이터 엔지니어, 데이터 분석이 등)을 설명합니다.
  • 이러한 역할에 대한 분석 플랫폼 액세스 제어 요구 사항을 설명합니다.
  • 컴퓨팅 리소스를 프로비저닝하고 액세스 권한을 부여하는 플랫폼 소유자를 식별합니다.
  • 서로 다른 데이터 역할이 현재 어떻게 협업하는지 설명합니다.
  • 동일한 분석 플랫폼에서 여러 팀이 협업하고 있나요? 그렇다면 이러한 각 팀에 대한 액세스 제어 및 격리 요구 사항은 무엇인가요?
  • 최종 사용자가 분석 플랫폼과 상호 작용하는 데 사용하는 클라이언트 도구는 무엇인가요?

ETL/ELT, 변환 및 오케스트레이션

ETL/ELT, 변환 및 오케스트레이션에 대해 다음 사항을 평가합니다.

  • 현재 데이터 수집에 어떤 도구를 사용하고 있나요(ETL 또는 ELT)?
  • 기존 환경에서 이러한 도구는 어디에 있나요(온-프레미스 또는 클라우드)?
  • 현재 데이터 로드 및 업데이트 요구 사항은 무엇인가요(실시간, 마이크로 일괄 처리, 시간별, 매일, 매주 또는 매월)?
  • 각 계층에 대한 변환 요구 사항을 설명합니다(빅 데이터, 데이터 레이크, 데이터 웨어하우스).
  • 데이터 변환을 위한 현재 프로그래밍 방법은 무엇인가요(코드 없음, 낮은 코드, SQL, Python, Scala, C# 또는 기타와 같은 프로그래밍)?
  • 데이터를 변환하기 위해 기본 설정하는 계획된 프로그래밍 방법은 무엇인가요(코드 없음, 낮은 코드, SQL, Python, Scala, C# 등의 프로그래밍)?
  • 데이터 기반 프로세스를 자동화하기 위해 데이터 오케스트레이션에 현재 어떤 도구를 사용하고 있나요?
  • 기존 ETL의 데이터 원본은 어디에 있나요(Azure, 기타 클라우드 공급자 또는 온-프레미스)?
  • 분석 플랫폼과의 통합이 필요한 기존 데이터 사용량 도구는 무엇인가요(보고, BI 도구, 오픈 소스 도구)?
  • 분석 플랫폼과의 통합이 필요한 계획된 데이터 사용량 도구는 무엇인가요(보고, BI 도구, 오픈 소스 도구)?

네트워킹 및 보안

네트워킹 및 보안을 위해 다음 사항을 평가합니다.

  • 데이터에 대해 어떤 규제 요구 사항이 있나요?
  • 데이터에 고객 콘텐츠, PCI(Payment Card Industry) 또는 HIPAA(Health Insurance Portability and Accountability Act, 1996) 데이터가 포함된 경우 보안 그룹에서 이 데이터에 대해 Azure를 인증했나요? 그렇다면 어떤 Azure 서비스용인가요?
  • 사용자 권한 부여 및 인증 요구 사항을 설명합니다.
  • 구현 중 데이터에 대한 액세스를 제한할 수 있는 보안 문제가 있나요?
  • 개발 및 테스트 중에 사용할 수 있는 테스트 데이터가 있나요?
  • 분석 컴퓨팅 및 스토리지(개인 네트워크, 공용 네트워크 또는 방화벽 제한)에 대한 조직 네트워크 보안 요구 사항을 설명합니다.
  • 클라이언트 도구가 분석 컴퓨팅 및 스토리지(피어링된 네트워크, 프라이빗 엔드포인트 등)에 액세스하기 위한 네트워크 보안 요구 사항을 설명합니다.
  • 온-프레미스와 Azure(Azure ExpressRoute, 사이트 간 등) 간의 현재 네트워크 설정을 설명합니다.

다음의 가능한 요구 사항 검사 목록을 사용하여 평가를 안내합니다.

  • 데이터 보호:
    • 전송 중 암호화
    • 저장 시 암호화(기본 키 또는 고객 관리형 키)
    • 데이터 검색 및 분류
  • 액세스 제어:
    • 개체 수준 보안
    • 행 수준 보안
    • 열 수준 보안
    • 동적 데이터 마스킹
  • 인증:
    • SQL 로그인
    • Microsoft Entra ID
    • 다중 요소 인증(MFA)
  • 네트워크 보안:
    • 가상 네트워크
    • 방화벽
    • Azure ExpressRoute
  • 위협 보호:
    • 위협 감지
    • 감사
    • 취약점 평가

자세한 내용은 Azure Synapse Analytics 보안 백서를 참조하세요.

Azure 환경

Azure 환경의 경우 다음 사항을 평가합니다.

  • 현재 Azure를 사용하고 있나요? 프로덕션 워크로드에 사용되나요?
  • Azure를 사용하는 경우 어떤 서비스를 사용하고 있나요? 어떤 지역을 사용하고 있나요?
  • Azure ExpressRoute를 사용하나요? 대역폭은 얼마인가요?
  • 필요한 Azure 서비스를 프로비저닝하기 위한 예산 승인이 있나요?
  • 현재 리소스(ARM(Azure Resource Manager) 또는 Terraform)를 어떻게 프로비저닝하고 관리하나요?
  • 핵심 팀이 Synapse Analytics에 익숙하나요? 학습이 필요한가요?

데이터 사용

데이터 사용량에 대해서는 다음 사항을 평가합니다.

  • 수집, 탐색, 준비 및 데이터 시각화와 같은 작업을 수행하기 위해 현재 사용하는 도구와 방법을 설명합니다.
  • 수집, 탐색, 준비 및 데이터 시각화와 같은 작업을 수행하는 데 사용할 도구를 식별합니다.
  • 분석 플랫폼(Microsoft Power BI, Microsoft Excel, Microsoft SQL Server Reporting Services, Tableau 등)과 상호 작용할 계획인 애플리케이션은 무엇인가요?
  • 모든 데이터 소비자를 식별합니다.
  • 데이터 내보내기 및 데이터 공유 요구 사항을 식별합니다.

Azure Synapse 서비스 평가

Azure Synapse 서비스 평가는 Azure Synapse 내의 서비스와 관련됩니다. Azure Synapse에는 컴퓨팅 및 데이터 이동을 위한 다음 구성 요소가 있습니다.

  • Synapse SQL: 데이터 웨어하우징 및 데이터 가상화 시나리오를 지원하는 T-SQL(Transact-SQL)용 분산 쿼리 시스템입니다. 또한 스트리밍 및 ML(기계 학습) 시나리오를 해결하기 위해 T-SQL을 확장합니다. Synapse SQL은 서버리스전용 리소스 모델을 모두 제공합니다.
  • 서버리스 SQL 풀: 대규모 데이터 및 계산 기능을 위해 빌드된 분산 데이터 처리 시스템입니다. 설정할 인프라나 유지 관리할 클러스터가 없습니다. 이 서비스는 계획되지 않거나 버스트 워크로드에 적합합니다. 권장 시나리오에는 데이터 레이크에서 직접 파일에 대한 빠른 데이터 탐색, 논리적 데이터 웨어하우스 및 원시 데이터의 데이터 변환이 포함됩니다.
  • 전용 SQL 풀: Synapse SQL을 사용할 때 프로비저닝되는 분석 리소스의 컬렉션을 나타냅니다. 전용 SQL 풀(이전의 SQL DW)의 크기는 DWU(Data Warehousing Unit)에 의해 결정됩니다. 이 서비스는 SQL 테이블에 저장된 데이터에 대해 예측 가능한 고성능 연속 워크로드가 있는 데이터 웨어하우스에 적합합니다. 
  • Apache Spark 풀: 데이터 준비, 데이터 엔지니어링, ETL 및 ML에 사용되는 가장 널리 사용되는 오픈 소스 빅 데이터 엔진인 Apache Spark를 완벽하고 긴밀하게 통합합니다.
  • 데이터 통합 파이프라인: Azure Synapse에는 ADF(Azure Data Factory)와 동일한 데이터 통합 엔진 및 환경이 포함되어 있습니다. Azure Synapse를 벗어나지 않고도 풍부한 규모의 ETL 파이프라인을 만들 수 있습니다.

최적의 SQL 풀 형식(전용 또는 서버리스)을 결정하는 데 도움이 되도록 다음 사항을 평가합니다.

  • SQL 테이블에 저장된 데이터의 처리 능력을 확보하여 기존의 관계형 데이터 웨어하우스를 빌드하려고 하나요?
  • 사용 사례에 예측 가능한 성능이 필요하나요?
  • 데이터 레이크 위에 논리적 데이터 웨어하우스를 빌드하려고 하나요?
  • 데이터 레이크에서 직접 데이터를 쿼리하려고 하나요?
  • 데이터 레이크에서 데이터를 탐색하려고 하나요?

다음 표에서는 두 가지 Synapse SQL 풀 형식을 비교합니다.

비교 전용 SQL 풀 서버리스 SQL 풀
가치 제안 데이터 웨어하우스의 완전 관리 기능. 지속적인 워크로드를 위한 예측 가능한 고성능. 관리(로드) 데이터에 최적화되었습니다. 데이터 레이크 데이터를 쉽게 시작하고 탐색할 수 있습니다. 임시 및 일시적 워크로드에 대한 TCO(총 소유 비용)가 향상되었습니다. 데이터 레이크의 데이터 쿼리에 최적화되었습니다.
워크로드 지속적인 워크로드에 이상적입니다. 로드하면 더 복잡해지고 성능이 향상됩니다. DWU당 청구(크기가 적절할 때)는 비용 면에서 유리합니다. 임시 또는 일시적 워크로드에 이상적입니다. 데이터를 로드할 필요가 없으므로 보다 쉽게 시작하고 실행할 수 있습니다. 사용량에 따라 청구하면 비용 효율적입니다.
쿼리 성능 높은 동시성과 짧은 대기 시간을 제공합니다. 구체화된 보기를 포함하여 풍부한 캐싱 옵션을 지원합니다. 워크로드 관리(WLM)와 절충점을 선택할 수 있는 기능이 있습니다. 대시보드 쿼리에는 적합하지 않습니다. 응답 시간(밀리초)이 예상되지 않습니다. 외부 데이터에서만 작동합니다.

전용 SQL 풀 평가

전용 SQL 풀 평가를 위해 다음 플랫폼 지점을 평가합니다.

  • 현재 데이터 웨어하우스 플랫폼은 무엇인가요(Microsoft SQL Server, Netezza, Teradata, Greenplum 등)?
  • 마이그레이션 워크로드의 경우 각 환경에 대한 어플라이언스 제조업체 및 모델을 결정합니다. CPU, GPU 및 메모리에 대한 세부 정보를 포함합니다.
  • 어플라이언스 마이그레이션의 경우 하드웨어를 언제 구입했나요? 어플라이언스가 완전히 감가상각되었나요? 그렇지 않은 경우 감가상각은 언제 종료되나요? 그리고 자본 지출이 얼마나 남았나요?
  • 하드웨어 및 네트워크 아키텍처 다이어그램이 있나요?
  • 계획된 데이터 웨어하우스의 데이터 원본은 어디에 있나요(Azure, 기타 클라우드 공급자 또는 온-프레미스)?
  • 데이터 웨어하우스에 대한 데이터 원본의 데이터 호스팅 플랫폼은 무엇인가요(Microsoft SQL Server, Azure SQL Database, DB2, Oracle, Azure Blob Storage, AWS, Hadoop 등)?
  • 데이터 원본이 데이터 웨어하우스인가요? 그렇다면 어떤 데이터 웨어하우스인가요?
  • 모든 ETL, ELT 및 데이터 로드 시나리오를 식별합니다(일괄 처리 창, 스트리밍, 거의 실시간). 각 시나리오에 대한 기존 SLA(서비스 수준 계약)를 식별하고 새 환경에서 예상되는 SLA를 문서화합니다.
  • 현재 데이터 웨어하우스 크기는 얼마인가요?
  • 전용 SQL 풀에서 대상으로 하는 데이터 세트 증가율은 얼마인가요?
  • 현재 사용 중인 환경(개발, 테스트 또는 프로덕션)을 설명합니다.
  • 데이터 이동을 위해 현재 사용 중인 도구는 무엇인가요(ADF, Microsoft SQL Server Integration Services(SSIS), robocopy, Informatica, SFTP 등)?
  • 실시간 또는 거의 실시간 데이터를 로드할 계획인가요?

다음 데이터베이스 포인트를 평가합니다.

  • 각 데이터 웨어하우스의 개체(스키마, 테이블, 뷰, 저장 프로시저, 함수)의 수는 얼마인가요?
  • 별모양 스키마, 눈송이 스키마 또는 다른 디자인인가요?
  • 레코드의 크기와 수 측면에서 가장 큰 테이블은 무엇인가요?
  • 열 수 측면에서 가장 넓은 테이블은 무엇인가요?
  • 데이터 웨어하우스용으로 설계된 데이터 모델이 이미 있나요? Kimball, Inmon 또는 별모양 스키마 디자인인가요?
  • SCD(느린 변경 차원)가 사용 중인가요? 그렇다면 어떤 형식인가요?
  • 의미 체계 계층은 관계형 데이터 마트나 Analysis Services(표 형식 또는 다차원) 또는 다른 제품을 사용하여 구현되나요?
  • HA/RPO/RTO/데이터 보관 요구 사항은 무엇인가요?
  • 지역 복제 요구 사항은 무엇인가요?

다음 워크로드 특성을 평가합니다.

  • 사용량이 많은 시간 동안 데이터 웨어하우스에 액세스하는 동시 사용자 또는 작업의 예상 수는 얼마인가요?
  • 사용량이 적은 시간 동안 데이터 웨어하우스에 액세스하는 동시 사용자 또는 작업의 예상 수는 얼마인가요?
  • 사용자나 작업이 없는 기간이 있나요?
  • 대화형 쿼리에 대한 쿼리 실행 성능 기대치는 얼마인가요?
  • 일간/주간/월간 데이터 로드 또는 업데이트에 대한 데이터 로드 성능 기대치는 얼마인가요?
  • 보고 및 분석 쿼리에 대한 쿼리 실행 기대치는 얼마인가요?
  • 가장 일반적으로 실행되는 쿼리는 얼마나 복잡하나요?
  • 전체 데이터 세트 크기 대비 활성 데이터 세트 비율은 몇 퍼센트인가요?
  • 로드 또는 업데이트, 일괄 처리 또는 보고, Interactive Query 및 분석 처리에 예상되는 워크로드의 비율은 대략 얼마인가요?
  • 데이터 소비 패턴 및 플랫폼 식별:
    • 현재 및 계획된 보고 방법 및 도구.
    • 데이터 웨어하우스에 액세스할 애플리케이션 또는 분석 도구는 무엇인가요?
    • 동시 쿼리 수?
    • 특정 시점의 평균 활성 쿼리 수는?
    • 데이터 액세스의 특성(대화형, 임시, 내보내기 또는 기타)은 무엇인가요?
    • 데이터 역할 및 데이터 요구 사항에 대한 완전한 설명입니다.
    • 최대 동시 연결 수입니다.
  • 쿼리 성능 SLA 패턴:
    • 대시보드 사용자.
    • 일괄 처리 보고.
    • ML 사용자.
    • ETL 프로세스.
  • 기존 환경과 새 환경에 대한 보안 요구 사항은 무엇인가요(행 수준 보안, 열 수준 보안, 액세스 제어, 암호화 등)?
  • ML 모델 채점을 T-SQL과 통합하기 위한 요구 사항이 있나요?

서버리스 SQL 풀 평가

Synapse Serverless SQL 풀은 세 가지 주요 사용 사례를 지원합니다.

  • 기본 검색 및 탐색: 데이터 레이크에서 다양한 형식(Parquet, CSV, JSON)의 데이터를 빠르게 추론하여 데이터 레이크에서 인사이트를 추출하는 방법을 계획할 수 있습니다.
  • 논리적 데이터 웨어하우스: 데이터를 재배치하거나 변환하지 않고도 원시 데이터나 이질적인 데이터 위에 관계형 추상화를 제공하여 데이터를 항상 최신 상태로 볼 수 있도록 합니다.
  • 데이터 변환: T-SQL을 사용하여 레이크의 데이터를 변환하는 간단하고 확장 가능하며 성능이 뛰어난 방법으로 BI 및 기타 도구에 공급하거나 관계형 데이터 저장소(Synapse SQL 데이터베이스, Azure SQL Database 등)에 로드할 수 있습니다.

다양한 데이터 역할이 서버리스 SQL 풀의 이점을 얻을 수 있습니다.

  • 데이터 엔지니어는 데이터 레이크를 탐색하고 이 서비스를 사용하여 데이터를 변환 및 준비하고 데이터 변환 파이프라인을 단순화할 수 있습니다.
  • 데이터 과학자는 OPENROWSET 및 자동 스키마 유추와 같은 기능을 통해 데이터 레이크에 있는 데이터의 내용과 구조를 빠르게 추론할 수 있습니다.
  • 데이터 분석가는 친숙한 T-SQL 문이나 선호하는 쿼리 도구를 사용하여 데이터 과학자나 데이터 엔지니어가 만든 데이터 및 Spark 외부 테이블을 탐색할 수 있습니다.
  • BI 전문가는 Spark 테이블 및 데이터 레이크의 데이터를 기반으로 하여 Power BI 보고서 만들기를 빠르게 수행할 수 있습니다.

참고 항목

T-SQL 언어는 전용 SQL 풀과 서버리스 SQL 풀 모두에서 사용되지만 지원되는 기능 집합에 약간의 차이가 있습니다. Synapse SQL(전용 및 서버리스)에서 지원되는 T-SQL 기능에 대한 자세한 내용은 Azure Synapse SQL에서 지원되는 Transact-SQL 기능을 참조하세요.

서버리스 SQL 풀 평가를 위해 다음 사항을 평가합니다.

  • 관계형 쿼리(T-SQL)를 사용하여 데이터 레이크에서 데이터를 검색하고 탐색하는 사용 사례가 있나요?
  • 데이터 레이크 위에 논리적 데이터 웨어하우스를 빌드하는 사용 사례가 있나요?
  • 먼저 데이터 레이크에서 데이터를 이동하지 않고 데이터 레이크에서 데이터를 변환하는 사용 사례가 있는지 식별합니다.
  • 데이터가 이미 ADLS(Azure Data Lake Storage) 또는 Azure Blob Storage에 있나요?
  • 데이터가 이미 ADLS에 있는 경우 데이터 레이크에 좋은 파티션 전략이 있나요?
  • Azure Cosmos DB에 작동 데이터가 있나요? 트랜잭션에 영향을 주지 않고 Azure Cosmos DB에 대한 실시간 분석 사용 사례가 있나요?
  • 데이터 레이크에서 파일 형식을 식별합니다.
  • 쿼리 성능 SLA를 식별합니다. 사용 사례에 예측 가능한 성능과 비용이 필요하나요?
  • 계획되지 않았거나 폭발적인 SQL 분석 워크로드가 있나요?
  • 데이터 소비 패턴 및 플랫폼 식별:
    • 현재 및 계획된 보고 방법 및 도구.
    • 서버리스 SQL 풀에 액세스할 애플리케이션 또는 분석 도구는 무엇인가요?
    • 특정 시점의 평균 활성 쿼리 수입니다.
    • 데이터 액세스의 특성(대화형, 임시, 내보내기 또는 기타)은 무엇인가요?
    • 데이터 역할 및 데이터 요구 사항에 대한 완전한 설명입니다.
    • 최대 동시 연결 수입니다.
    • 쿼리 복잡성?
  • 보안 요구 사항(액세스 제어, 암호화 등)은 무엇인가요?
  • 필요한 T-SQL 기능(저장 프로시저 또는 기능)은 무엇인가요?
  • 서버리스 SQL 풀로 보낼 쿼리 수와 각 쿼리의 결과 집합 크기를 식별합니다.

서버리스 SQL 풀을 처음 사용하는 경우 Azure Synapse 서버리스 SQL 풀을 사용하여 데이터 분석 솔루션 빌드 학습 경로를 통해 작업하는 것이 좋습니다.

Spark 풀 평가

Azure Synapse의 Spark 풀은 다음과 같은 주요 시나리오를 지원합니다.

  • 데이터 엔지니어링/데이터 준비: Apache Spark에는 대용량 데이터의 준비 및 처리를 지원하는 많은 언어 기능이 포함되어 있습니다. 준비 및 처리를 통해 데이터의 가치를 높이고 다른 Azure Synapse 서비스에서 사용할 수 있습니다. 여러 언어(C#, Scala, PySpark, Spark SQL) 및 처리와 연결을 위해 제공된 라이브러리를 통해 사용할 수 있습니다.
  • 기계 학습: Apache Spark에는 Spark 풀에서 사용할 수 있는 Spark를 기반으로 빌드된 ML 라이브러리인 MLlib가 함께 제공됩니다. Spark 풀에는 ML을 포함한 데이터 과학용 다양한 패키지로 구성된 Python 배포판인 Anaconda도 포함됩니다. 또한 Synapse의 Apache Spark는 내결함성이 있는 탄력적 RESTful ML 프레임워크인 Microsoft Machine Learning을 위해 미리 설치된 라이브러리를 제공합니다. Notebooks에 대한 기본 제공 지원과 결합하면 ML 애플리케이션을 만들기 위한 풍부한 환경을 갖게 됩니다.

참고 항목

자세한 내용은 Azure Synapse Analytics의 Apache Spark를 참조하세요.

또한 Azure Synapse는 Linux Foundation Delta Lake와 호환됩니다. Delta Lake는 오픈 소스 스토리지 레이어로, ACID(원자성, 일관성, 격리성, 내구성) 트랜잭션을 Apache Spark 및 빅 데이터 워크로드에 제공합니다. 자세한 내용은 Delta Lake란?을 참조하세요.

Spark 풀 평가를 위해 다음 사항을 평가합니다.

  • 데이터 엔지니어링 또는 데이터 준비가 필요한 워크로드를 식별합니다.
  • 변환 형식을 명확하게 정의합니다.
  • 처리할 비구조화된 데이터가 있는지 확인합니다.
  • 기존 Spark/Hadoop 워크로드에서 마이그레이션하는 경우:
    • 기존 빅 데이터 플랫폼은 무엇인가요(Cloudera, Hortonworks, 클라우드 서비스 등)?
    • 온-프레미스에서 마이그레이션하는 경우 하드웨어가 감가상각되었거나 라이선스가 만료되었나요? 그렇지 않은 경우 감가상각 또는 만료는 언제 발생하나요?
    • 기존 클러스터 유형은 무엇인가요?
    • 필요한 라이브러리와 Spark 버전은 무엇인가요?
    • Spark로의 Hadoop 마이그레이션인가요?
    • 현재 또는 기본 설정하는 프로그래밍 언어는 무엇인가요?
    • 워크로드 형식은 무엇인가요(빅 데이터, ML 등)?
    • 기존 및 계획된 클라이언트 도구 및 보고 플랫폼은 무엇인가요?
    • 보안 요구 사항은 무엇인가요?
    • 현재의 문제점과 한계가 있나요?
  • Delta Lake를 사용할 계획이 있거나 현재 사용 중인가요?
  • 오늘은 패키지를 어떻게 관리하시나요?
  • 필요한 컴퓨팅 클러스터 유형을 식별합니다.
  • 클러스터 사용자 지정이 필요한지 여부를 식별합니다.

Spark 풀을 처음 사용하는 경우 Azure Synapse Apache Spark 풀로 데이터 엔지니어링 수행 학습 경로를 진행하는 것이 좋습니다.

다음 단계

디자인에 따른 Azure Synapse 구현 성공 시리즈의 다음 문서에서 Synapse 작업 영역 디자인을 평가하고 지침 및 요구 사항을 충족하는지 유효성 검사하는 방법을 알아봅니다.