Escolher uma tecnologia de orquestração de pipeline de dados no Azure

Artigo
01/02/2025

A maioria das soluções de Big Data consiste em operações de processamento de dados repetidas, encapsuladas em fluxos de trabalho. Um orquestrador de pipeline é uma ferramenta que ajuda a automatizar esses fluxos de trabalho. Um orquestrador pode agendar trabalhos, executar fluxos de trabalho e coordenar dependências entre tarefas.

Quais são as opções disponíveis para orquestração do pipeline de dados?

No Azure, os seguintes serviços e ferramentas atenderão aos principais requisitos para orquestração de pipeline, fluxo de controle e movimentação de dados:

Esses serviços e ferramentas podem ser usados independentemente uns dos outros ou usados juntos para criar uma solução híbrida. Por exemplo, o IR (Integration Runtime) no Azure Data Factory V2 pode executar nativamente pacotes SSIS em um ambiente de computação gerenciado do Azure. Embora haja alguma sobreposição na funcionalidade entre esses serviços, há algumas diferenças importantes.

Critérios principais de seleção

Para restringir as opções, comece respondendo a estas perguntas:

Você precisa de recursos de Big Data para mover e transformar seus dados? Normalmente, isso significa vários gigabytes a terabytes de dados. Em caso afirmativo, restrinja suas opções às mais adequadas para Big Data.
Você precisa de um serviço gerenciado que possa operar em escala? Em caso afirmativo, selecione um dos serviços baseados em nuvem que não são limitados pelo seu poder de processamento local.
Algumas de suas fontes de dados estão localizadas localmente? Em caso afirmativo, procure opções que possam funcionar com fontes de dados ou destinos locais e de nuvem.
Os dados de origem estão armazenados no armazenamento de Blobs em um sistema de arquivos HDFS? Nesse caso, escolha uma opção que dê suporte a consultas do Hive.

Matriz de funcionalidades

As tabelas a seguir resumem as principais diferenças de recursos.

Funcionalidades gerais

Capacidade	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie no HDInsight
Gerenciado	Sim	Não	Sim
Baseado em nuvem	Sim	Não (local)	Sim
Pré-requisito	Assinatura do Azure	SQL Server	Assinatura do Azure, cluster HDInsight
Ferramentas de gerenciamento	Portal do Azure, PowerShell, CLI, SDK do .NET	SSMS, PowerShell	Shell do Bash, API REST do Oozie, interface do usuário da Web do Oozie
Precificação	Pagar por uso	Licenciamento/pagamento por funcionalidades	Nenhuma cobrança adicional sobre a execução do cluster HDInsight

Funcionalidades de pipeline

Capacidade	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie no HDInsight
Copiar dados	Sim	Sim	Sim
Transformações personalizadas	Sim	Sim	Sim (trabalhos de MapReduce, Pig e Hive)
Pontuação do Azure Machine Learning	Sim	Sim (com script)	Não
HDInsight sob demanda	Sim	Não	Não
Lote do Azure	Sim	Não	Não
Pig, Hive, MapReduce	Sim	Não	Sim
Spark	Sim	Não	Não
Executar pacote SSIS	Sim	Sim	Não
Fluxo de controle	Sim	Sim	Sim
Acessar dados locais	Sim	Sim	Não

Funcionalidades de escalabilidade

Capacidade	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie no HDInsight
Escalar verticalmente	Sim	Não	Não
Escalar horizontalmente	Sim	Não	Sim (com a adição de nós de trabalho ao cluster)
Otimizado para Big Data	Sim	Não	Sim

Colaboradores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Zoiner Tejada | CEO e arquiteto

Próximas etapas

DataOps para o armazém de dados moderno

Compartilhar via

Escolher uma tecnologia de orquestração de pipeline de dados no Azure

Quais são as opções disponíveis para orquestração do pipeline de dados?

Critérios principais de seleção

Matriz de funcionalidades

Funcionalidades gerais

Funcionalidades de pipeline

Funcionalidades de escalabilidade

Colaboradores

Próximas etapas

Comentários

Recursos adicionais

Compartilhar via

Escolher uma tecnologia de orquestração de pipeline de dados no Azure

Quais são as opções disponíveis para orquestração do pipeline de dados?

Critérios principais de seleção

Matriz de funcionalidades

Funcionalidades gerais

Funcionalidades de pipeline

Funcionalidades de escalabilidade

Colaboradores

Próximas etapas

Recursos relacionados

Comentários

Recursos adicionais