다음을 통해 공유


Azure에서 데이터 파이프라인 오케스트레이션 기술 선택

대부분의 빅 데이터 솔루션은 워크플로에 캡슐화된 반복된 데이터 처리 작업으로 구성됩니다. 파이프라인 오케스트레이터는 이러한 워크플로를 자동화하는 데 도움이 되는 도구입니다. 오케스트레이터는 작업을 예약하고, 워크플로를 실행하고, 작업 간의 종속성을 조정할 수 있습니다.

데이터 파이프라인 오케스트레이션에 대한 옵션은 무엇인가요?

Azure에서 다음 서비스 및 도구는 파이프라인 오케스트레이션, 제어 흐름 및 데이터 이동에 대한 핵심 요구 사항을 충족합니다.

이러한 서비스와 도구는 서로 독립적으로 사용하거나 함께 사용하여 하이브리드 솔루션을 만들 수 있습니다. 예를 들어 Azure Data Factory V2의 IR(통합 런타임)은 관리되는 Azure 컴퓨팅 환경에서 SSIS 패키지를 기본적으로 실행할 수 있습니다. 이러한 서비스 간에는 몇 가지 기능이 겹치지만 몇 가지 주요 차이점이 있습니다.

주요 선택 기준

선택 범위를 좁히려면 먼저 다음 질문에 답변합니다.

  • 데이터를 이동하고 변환하기 위한 빅 데이터 기능이 필요한가요? 일반적으로 이는 데이터가 수 기가바이트에서 테라바이트까지 된다는 것을 의미합니다. 그렇다면 빅 데이터에 가장 적합한 옵션으로 옵션을 좁힐 수 있습니다.

  • 대규모로 작동할 수 있는 관리되는 서비스가 필요한가요? 그렇다면 로컬 처리 능력으로 제한되지 않는 클라우드 기반 서비스 중 하나를 선택합니다.

  • 일부 데이터 원본이 온-프레미스에 있나요? 그렇다면 클라우드와 온프레미스 데이터 원본 및 대상 모두에서 사용할 수 있는 옵션을 찾아보세요.

  • 원본 데이터가 HDFS 파일 시스템의 Blob Storage에 저장되어 있나요? 그렇다면 Hive 쿼리를 지원하는 옵션을 선택합니다.

기능 매트릭스

다음 표에서는 기능의 주요 차이점을 요약합니다.

일반 기능

능력 Azure Data Factory SSIS(SQL Server Integration Services) HDInsight의 Oozie
관리 아니요
클라우드 기반 아니요(로컬)
전제 조건 Azure 구독 SQL Server Azure 구독, HDInsight 클러스터
관리 도구 Azure Portal, PowerShell, CLI, .NET SDK SSMS, PowerShell Bash 셸, Oozie REST API, Oozie 웹 UI
가격 사용량당 지불 라이선싱/기능 요금 지불 HDInsight 클러스터를 실행하는 데 추가 비용 없음

파이프라인 기능

능력 Azure Data Factory SSIS(SQL Server Integration Services) HDInsight의 Oozie
데이터 복사
사용자 지정 변환 예(MapReduce, Pig 및 Hive 작업)
Azure Machine Learning 점수 매기기 예(스크립팅 포함) 아니요
HDInsight 온디맨드 아니요 아니요
Azure Batch 아니요 아니요
Pig, Hive, MapReduce 아니요
스파크 아니요 아니요
SSIS 패키지 실행 아니요
제어 흐름
온-프레미스 데이터 액세스 아니요

확장성 기능

능력 Azure Data Factory SSIS(SQL Server Integration Services) HDInsight의 Oozie
강화 아니요 아니요
규모 확장 아니요 예(클러스터에 작업자 노드 추가)
빅 데이터에 최적화 아니요

참여자

이 문서는 Microsoft에서 유지 관리합니다. 그것은 원래 다음 기여자에 의해 작성되었습니다.

주 작성자:

다음 단계

  • 최신 데이터 웨어하우스를 위한 DataOps