Compartilhar via


Escolher uma tecnologia de orquestração de pipeline de dados no Azure

A maioria das soluções de Big Data consiste em operações de processamento de dados repetidas, encapsuladas em fluxos de trabalho. Um orquestrador de pipeline é uma ferramenta que ajuda a automatizar esses fluxos de trabalho. Um orquestrador pode agendar trabalhos, executar fluxos de trabalho e coordenar dependências entre tarefas.

Quais são as opções disponíveis para orquestração do pipeline de dados?

No Azure, os seguintes serviços e ferramentas atenderão aos principais requisitos para orquestração de pipeline, fluxo de controle e movimentação de dados:

Esses serviços e ferramentas podem ser usados independentemente uns dos outros ou usados juntos para criar uma solução híbrida. Por exemplo, o IR (Integration Runtime) no Azure Data Factory V2 pode executar nativamente pacotes SSIS em um ambiente de computação gerenciado do Azure. Embora haja alguma sobreposição na funcionalidade entre esses serviços, há algumas diferenças importantes.

Critérios principais de seleção

Para restringir as opções, comece respondendo a estas perguntas:

  • Você precisa de recursos de Big Data para mover e transformar seus dados? Normalmente, isso significa vários gigabytes a terabytes de dados. Em caso afirmativo, restrinja suas opções às mais adequadas para Big Data.

  • Você precisa de um serviço gerenciado que possa operar em escala? Em caso afirmativo, selecione um dos serviços baseados em nuvem que não são limitados pelo seu poder de processamento local.

  • Algumas de suas fontes de dados estão localizadas localmente? Em caso afirmativo, procure opções que possam funcionar com fontes de dados ou destinos locais e de nuvem.

  • Os dados de origem estão armazenados no armazenamento de Blobs em um sistema de arquivos HDFS? Nesse caso, escolha uma opção que dê suporte a consultas do Hive.

Matriz de funcionalidades

As tabelas a seguir resumem as principais diferenças de recursos.

Funcionalidades gerais

Capacidade Azure Data Factory SQL Server Integration Services (SSIS) Oozie no HDInsight
Gerenciado Sim Não Sim
Baseado em nuvem Sim Não (local) Sim
Pré-requisito Assinatura do Azure SQL Server Assinatura do Azure, cluster HDInsight
Ferramentas de gerenciamento Portal do Azure, PowerShell, CLI, SDK do .NET SSMS, PowerShell Shell do Bash, API REST do Oozie, interface do usuário da Web do Oozie
Precificação Pagar por uso Licenciamento/pagamento por funcionalidades Nenhuma cobrança adicional sobre a execução do cluster HDInsight

Funcionalidades de pipeline

Capacidade Azure Data Factory SQL Server Integration Services (SSIS) Oozie no HDInsight
Copiar dados Sim Sim Sim
Transformações personalizadas Sim Sim Sim (trabalhos de MapReduce, Pig e Hive)
Pontuação do Azure Machine Learning Sim Sim (com script) Não
HDInsight sob demanda Sim Não Não
Lote do Azure Sim Não Não
Pig, Hive, MapReduce Sim Não Sim
Spark Sim Não Não
Executar pacote SSIS Sim Sim Não
Fluxo de controle Sim Sim Sim
Acessar dados locais Sim Sim Não

Funcionalidades de escalabilidade

Capacidade Azure Data Factory SQL Server Integration Services (SSIS) Oozie no HDInsight
Escalar verticalmente Sim Não Não
Escalar horizontalmente Sim Não Sim (com a adição de nós de trabalho ao cluster)
Otimizado para Big Data Sim Não Sim

Colaboradores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Próximas etapas