Partilhar via


Escolha tecnologia de orquestração de pipeline de dados no Azure

A maioria das soluções de big data consiste em operações repetidas de processamento de dados, encapsuladas em fluxos de trabalho. Um orquestrador de pipeline é uma ferramenta que ajuda a automatizar esses fluxos de trabalho. Um orquestrador pode agendar trabalhos, executar fluxos de trabalho e coordenar dependências entre tarefas.

Quais são as suas opções para a orquestração de pipelines de dados?

No Azure, os seguintes serviços e ferramentas atenderão aos principais requisitos para orquestração de pipeline, fluxo de controle e movimentação de dados:

Esses serviços e ferramentas podem ser usados independentemente uns dos outros ou usados juntos para criar uma solução híbrida. Por exemplo, o IR (Integration Runtime) no Azure Data Factory V2 pode executar nativamente pacotes SSIS em um ambiente de computação gerenciado do Azure. Embora haja alguma sobreposição na funcionalidade entre esses serviços, há algumas diferenças importantes.

Principais critérios de seleção

Para restringir as escolhas, comece por responder a estas perguntas:

  • Você precisa de recursos de big data para mover e transformar seus dados? Normalmente, isso significa de múltiplos gigabytes a terabytes de dados. Se sim, então restrinja suas opções para aquelas que mais se adequam ao big data.

  • Você precisa de um serviço gerenciado que possa operar em escala? Se sim, selecione um dos serviços baseados na nuvem que não estão limitados pelo seu poder de processamento local.

  • Algumas das suas fontes de dados estão localizadas no local? Em caso afirmativo, procure opções que possam funcionar com fontes ou destinos de dados na nuvem e no local.

  • Os seus dados de origem estão armazenados no armazenamento Blob em um sistema de ficheiros HDFS? Em caso afirmativo, escolha uma opção que ofereça suporte a consultas do Hive.

Matriz de capacidades

As tabelas a seguir resumem as principais diferenças nos recursos.

Capacidades gerais

Capacidade Azure Data Factory SQL Server Integration Services (SSIS) Oozie no HDInsight
Gerenciado Sim Não Sim
Baseado na nuvem Sim Não (local) Sim
Pré-requisito Subscrição do Azure Servidor SQL Subscrição do Azure, cluster HDInsight
Ferramentas de gestão Portal do Azure, PowerShell, CLI, .NET SDK SSMS, PowerShell Bash shell, Oozie REST API, Oozie web UI
Preços Pagamento por utilização Licenciamento/pagamento de funcionalidades Sem custos adicionais para além da execução do cluster HDInsight

Recursos de pipeline

Capacidade Azure Data Factory SQL Server Integration Services (SSIS) Oozie no HDInsight
Copiar dados Sim Sim Sim
Transformações personalizadas Sim Sim Sim (trabalhos MapReduce, Pig e Hive)
Pontuação do Azure Machine Learning Sim Sim (com scripts) Não
HDInsight a pedido Sim Não Não
Azure Batch Sim Não Não
Porco, Colmeia, MapReduce Sim Não Sim
Faísca Sim Não Não
Executar pacote SSIS Sim Sim Não
Fluxo de controle Sim Sim Sim
Aceder a dados no local Sim Sim Não

Recursos de escalabilidade

Capacidade Azure Data Factory SQL Server Integration Services (SSIS) Oozie no HDInsight
Aumentar a escala Sim Não Não
Dimensionamento Sim Não Sim (ao adicionar nós de trabalho ao cluster)
Otimizado para big data Sim Não Sim

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Próximos passos