Escolha tecnologia de orquestração de pipeline de dados no Azure
A maioria das soluções de big data consiste em operações repetidas de processamento de dados, encapsuladas em fluxos de trabalho. Um orquestrador de pipeline é uma ferramenta que ajuda a automatizar esses fluxos de trabalho. Um orquestrador pode agendar trabalhos, executar fluxos de trabalho e coordenar dependências entre tarefas.
Quais são as suas opções para a orquestração de pipelines de dados?
No Azure, os seguintes serviços e ferramentas atenderão aos principais requisitos para orquestração de pipeline, fluxo de controle e movimentação de dados:
Esses serviços e ferramentas podem ser usados independentemente uns dos outros ou usados juntos para criar uma solução híbrida. Por exemplo, o IR (Integration Runtime) no Azure Data Factory V2 pode executar nativamente pacotes SSIS em um ambiente de computação gerenciado do Azure. Embora haja alguma sobreposição na funcionalidade entre esses serviços, há algumas diferenças importantes.
Principais critérios de seleção
Para restringir as escolhas, comece por responder a estas perguntas:
Você precisa de recursos de big data para mover e transformar seus dados? Normalmente, isso significa de múltiplos gigabytes a terabytes de dados. Se sim, então restrinja suas opções para aquelas que mais se adequam ao big data.
Você precisa de um serviço gerenciado que possa operar em escala? Se sim, selecione um dos serviços baseados na nuvem que não estão limitados pelo seu poder de processamento local.
Algumas das suas fontes de dados estão localizadas no local? Em caso afirmativo, procure opções que possam funcionar com fontes ou destinos de dados na nuvem e no local.
Os seus dados de origem estão armazenados no armazenamento Blob em um sistema de ficheiros HDFS? Em caso afirmativo, escolha uma opção que ofereça suporte a consultas do Hive.
Matriz de capacidades
As tabelas a seguir resumem as principais diferenças nos recursos.
Capacidades gerais
Capacidade | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie no HDInsight |
---|---|---|---|
Gerenciado | Sim | Não | Sim |
Baseado na nuvem | Sim | Não (local) | Sim |
Pré-requisito | Subscrição do Azure | Servidor SQL | Subscrição do Azure, cluster HDInsight |
Ferramentas de gestão | Portal do Azure, PowerShell, CLI, .NET SDK | SSMS, PowerShell | Bash shell, Oozie REST API, Oozie web UI |
Preços | Pagamento por utilização | Licenciamento/pagamento de funcionalidades | Sem custos adicionais para além da execução do cluster HDInsight |
Recursos de pipeline
Capacidade | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie no HDInsight |
---|---|---|---|
Copiar dados | Sim | Sim | Sim |
Transformações personalizadas | Sim | Sim | Sim (trabalhos MapReduce, Pig e Hive) |
Pontuação do Azure Machine Learning | Sim | Sim (com scripts) | Não |
HDInsight a pedido | Sim | Não | Não |
Azure Batch | Sim | Não | Não |
Porco, Colmeia, MapReduce | Sim | Não | Sim |
Faísca | Sim | Não | Não |
Executar pacote SSIS | Sim | Sim | Não |
Fluxo de controle | Sim | Sim | Sim |
Aceder a dados no local | Sim | Sim | Não |
Recursos de escalabilidade
Capacidade | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie no HDInsight |
---|---|---|---|
Aumentar a escala | Sim | Não | Não |
Dimensionamento | Sim | Não | Sim (ao adicionar nós de trabalho ao cluster) |
Otimizado para big data | Sim | Não | Sim |
Contribuidores
Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.
Autor principal:
- Zoiner Tejada | CEO e Arquiteto
Próximos passos
- Pipelines e atividades no Azure Data Factory e no Azure Synapse Analytics
- Provisionar o tempo de execução de integração de Azure-SSIS no Azure Data Factory
- Oozie no HDInsight