Azure에서 데이터 파이프라인 오케스트레이션 기술 선택
대부분의 빅 데이터 솔루션은 워크플로에 캡슐화된 반복된 데이터 처리 작업으로 구성됩니다. 파이프라인 오케스트레이터는 이러한 워크플로를 자동화하는 데 도움이 되는 도구입니다. 오케스트레이터는 작업을 예약하고, 워크플로를 실행하고, 작업 간의 종속성을 조정할 수 있습니다.
데이터 파이프라인 오케스트레이션에 대한 옵션은 무엇인가요?
Azure에서 다음 서비스 및 도구는 파이프라인 오케스트레이션, 제어 흐름 및 데이터 이동에 대한 핵심 요구 사항을 충족합니다.
이러한 서비스와 도구는 서로 독립적으로 사용하거나 함께 사용하여 하이브리드 솔루션을 만들 수 있습니다. 예를 들어 Azure Data Factory V2의 IR(통합 런타임)은 관리되는 Azure 컴퓨팅 환경에서 SSIS 패키지를 기본적으로 실행할 수 있습니다. 이러한 서비스 간에는 몇 가지 기능이 겹치지만 몇 가지 주요 차이점이 있습니다.
주요 선택 기준
선택 범위를 좁히려면 먼저 다음 질문에 답변합니다.
데이터를 이동하고 변환하기 위한 빅 데이터 기능이 필요한가요? 일반적으로 이는 데이터가 수 기가바이트에서 테라바이트까지 된다는 것을 의미합니다. 그렇다면 빅 데이터에 가장 적합한 옵션으로 옵션을 좁힐 수 있습니다.
대규모로 작동할 수 있는 관리되는 서비스가 필요한가요? 그렇다면 로컬 처리 능력으로 제한되지 않는 클라우드 기반 서비스 중 하나를 선택합니다.
일부 데이터 원본이 온-프레미스에 있나요? 그렇다면 클라우드와 온프레미스 데이터 원본 및 대상 모두에서 사용할 수 있는 옵션을 찾아보세요.
원본 데이터가 HDFS 파일 시스템의 Blob Storage에 저장되어 있나요? 그렇다면 Hive 쿼리를 지원하는 옵션을 선택합니다.
기능 매트릭스
다음 표에서는 기능의 주요 차이점을 요약합니다.
일반 기능
능력 | Azure Data Factory | SSIS(SQL Server Integration Services) | HDInsight의 Oozie |
---|---|---|---|
관리 | 예 | 아니요 | 예 |
클라우드 기반 | 예 | 아니요(로컬) | 예 |
전제 조건 | Azure 구독 | SQL Server | Azure 구독, HDInsight 클러스터 |
관리 도구 | Azure Portal, PowerShell, CLI, .NET SDK | SSMS, PowerShell | Bash 셸, Oozie REST API, Oozie 웹 UI |
가격 | 사용량당 지불 | 라이선싱/기능 요금 지불 | HDInsight 클러스터를 실행하는 데 추가 비용 없음 |
파이프라인 기능
능력 | Azure Data Factory | SSIS(SQL Server Integration Services) | HDInsight의 Oozie |
---|---|---|---|
데이터 복사 | 예 | 예 | 예 |
사용자 지정 변환 | 예 | 예 | 예(MapReduce, Pig 및 Hive 작업) |
Azure Machine Learning 점수 매기기 | 예 | 예(스크립팅 포함) | 아니요 |
HDInsight 온디맨드 | 예 | 아니요 | 아니요 |
Azure Batch | 예 | 아니요 | 아니요 |
Pig, Hive, MapReduce | 예 | 아니요 | 예 |
스파크 | 예 | 아니요 | 아니요 |
SSIS 패키지 실행 | 예 | 예 | 아니요 |
제어 흐름 | 예 | 예 | 예 |
온-프레미스 데이터 액세스 | 예 | 예 | 아니요 |
확장성 기능
능력 | Azure Data Factory | SSIS(SQL Server Integration Services) | HDInsight의 Oozie |
---|---|---|---|
강화 | 예 | 아니요 | 아니요 |
규모 확장 | 예 | 아니요 | 예(클러스터에 작업자 노드 추가) |
빅 데이터에 최적화 | 예 | 아니요 | 예 |
참여자
이 문서는 Microsoft에서 유지 관리합니다. 그것은 원래 다음 기여자에 의해 작성되었습니다.
주 작성자:
- 조이너 테자다 | CEO 및 설계자
다음 단계
- Azure Data Factory 및 Azure Synapse Analytics의 파이프라인 및 활동
- Azure Data Factory에서 Azure-SSIS 통합 런타임을 설정
- HDInsight에서의 Oozie
관련 리소스
- 최신 데이터 웨어하우스를 위한 DataOps