Escolha tecnologia de orquestração de pipeline de dados no Azure

Artigo
12/12/2024

A maioria das soluções de big data consiste em operações repetidas de processamento de dados, encapsuladas em fluxos de trabalho. Um orquestrador de pipeline é uma ferramenta que ajuda a automatizar esses fluxos de trabalho. Um orquestrador pode agendar trabalhos, executar fluxos de trabalho e coordenar dependências entre tarefas.

Quais são as suas opções para a orquestração de pipelines de dados?

No Azure, os seguintes serviços e ferramentas atenderão aos principais requisitos para orquestração de pipeline, fluxo de controle e movimentação de dados:

Esses serviços e ferramentas podem ser usados independentemente uns dos outros ou usados juntos para criar uma solução híbrida. Por exemplo, o IR (Integration Runtime) no Azure Data Factory V2 pode executar nativamente pacotes SSIS em um ambiente de computação gerenciado do Azure. Embora haja alguma sobreposição na funcionalidade entre esses serviços, há algumas diferenças importantes.

Principais critérios de seleção

Para restringir as escolhas, comece por responder a estas perguntas:

Você precisa de recursos de big data para mover e transformar seus dados? Normalmente, isso significa de múltiplos gigabytes a terabytes de dados. Se sim, então restrinja suas opções para aquelas que mais se adequam ao big data.
Você precisa de um serviço gerenciado que possa operar em escala? Se sim, selecione um dos serviços baseados na nuvem que não estão limitados pelo seu poder de processamento local.
Algumas das suas fontes de dados estão localizadas no local? Em caso afirmativo, procure opções que possam funcionar com fontes ou destinos de dados na nuvem e no local.
Os seus dados de origem estão armazenados no armazenamento Blob em um sistema de ficheiros HDFS? Em caso afirmativo, escolha uma opção que ofereça suporte a consultas do Hive.

Matriz de capacidades

As tabelas a seguir resumem as principais diferenças nos recursos.

Capacidades gerais

Capacidade	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie no HDInsight
Gerenciado	Sim	Não	Sim
Baseado na nuvem	Sim	Não (local)	Sim
Pré-requisito	Subscrição do Azure	Servidor SQL	Subscrição do Azure, cluster HDInsight
Ferramentas de gestão	Portal do Azure, PowerShell, CLI, .NET SDK	SSMS, PowerShell	Bash shell, Oozie REST API, Oozie web UI
Preços	Pagamento por utilização	Licenciamento/pagamento de funcionalidades	Sem custos adicionais para além da execução do cluster HDInsight

Recursos de pipeline

Capacidade	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie no HDInsight
Copiar dados	Sim	Sim	Sim
Transformações personalizadas	Sim	Sim	Sim (trabalhos MapReduce, Pig e Hive)
Pontuação do Azure Machine Learning	Sim	Sim (com scripts)	Não
HDInsight a pedido	Sim	Não	Não
Azure Batch	Sim	Não	Não
Porco, Colmeia, MapReduce	Sim	Não	Sim
Faísca	Sim	Não	Não
Executar pacote SSIS	Sim	Sim	Não
Fluxo de controle	Sim	Sim	Sim
Aceder a dados no local	Sim	Sim	Não

Recursos de escalabilidade

Capacidade	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie no HDInsight
Aumentar a escala	Sim	Não	Não
Dimensionamento	Sim	Não	Sim (ao adicionar nós de trabalho ao cluster)
Otimizado para big data	Sim	Não	Sim

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Zoiner Tejada | CEO e Arquiteto

Próximos passos

DataOps para o armazém de dados moderno

Partilhar via

Escolha tecnologia de orquestração de pipeline de dados no Azure

Quais são as suas opções para a orquestração de pipelines de dados?

Principais critérios de seleção

Matriz de capacidades

Capacidades gerais

Recursos de pipeline

Recursos de escalabilidade

Contribuidores

Próximos passos

Comentários

Recursos adicionais

Partilhar via

Escolha tecnologia de orquestração de pipeline de dados no Azure

Quais são as suas opções para a orquestração de pipelines de dados?

Principais critérios de seleção

Matriz de capacidades

Capacidades gerais

Recursos de pipeline

Recursos de escalabilidade

Contribuidores

Próximos passos

Recursos relacionados

Comentários

Recursos adicionais