Escolher uma tecnologia de orquestração de pipeline de dados no Azure
A maioria das soluções de Big Data consiste em operações de processamento de dados repetidas, encapsuladas em fluxos de trabalho. Um orquestrador de pipeline é uma ferramenta que ajuda a automatizar esses fluxos de trabalho. Um orquestrador pode agendar trabalhos, executar fluxos de trabalho e coordenar dependências entre tarefas.
Quais são as opções disponíveis para orquestração do pipeline de dados?
No Azure, os seguintes serviços e ferramentas atenderão aos principais requisitos para orquestração de pipeline, fluxo de controle e movimentação de dados:
Esses serviços e ferramentas podem ser usados independentemente uns dos outros ou usados juntos para criar uma solução híbrida. Por exemplo, o IR (Integration Runtime) no Azure Data Factory V2 pode executar nativamente pacotes SSIS em um ambiente de computação gerenciado do Azure. Embora haja alguma sobreposição na funcionalidade entre esses serviços, há algumas diferenças importantes.
Critérios principais de seleção
Para restringir as opções, comece respondendo a estas perguntas:
Você precisa de recursos de Big Data para mover e transformar seus dados? Normalmente, isso significa vários gigabytes a terabytes de dados. Em caso afirmativo, restrinja suas opções às mais adequadas para Big Data.
Você precisa de um serviço gerenciado que possa operar em escala? Em caso afirmativo, selecione um dos serviços baseados em nuvem que não são limitados pelo seu poder de processamento local.
Algumas de suas fontes de dados estão localizadas localmente? Em caso afirmativo, procure opções que possam funcionar com fontes de dados ou destinos locais e de nuvem.
Os dados de origem estão armazenados no armazenamento de Blobs em um sistema de arquivos HDFS? Nesse caso, escolha uma opção que dê suporte a consultas do Hive.
Matriz de funcionalidades
As tabelas a seguir resumem as principais diferenças de recursos.
Funcionalidades gerais
Capacidade | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie no HDInsight |
---|---|---|---|
Gerenciado | Sim | Não | Sim |
Baseado em nuvem | Sim | Não (local) | Sim |
Pré-requisito | Assinatura do Azure | SQL Server | Assinatura do Azure, cluster HDInsight |
Ferramentas de gerenciamento | Portal do Azure, PowerShell, CLI, SDK do .NET | SSMS, PowerShell | Shell do Bash, API REST do Oozie, interface do usuário da Web do Oozie |
Precificação | Pagar por uso | Licenciamento/pagamento por funcionalidades | Nenhuma cobrança adicional sobre a execução do cluster HDInsight |
Funcionalidades de pipeline
Capacidade | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie no HDInsight |
---|---|---|---|
Copiar dados | Sim | Sim | Sim |
Transformações personalizadas | Sim | Sim | Sim (trabalhos de MapReduce, Pig e Hive) |
Pontuação do Azure Machine Learning | Sim | Sim (com script) | Não |
HDInsight sob demanda | Sim | Não | Não |
Lote do Azure | Sim | Não | Não |
Pig, Hive, MapReduce | Sim | Não | Sim |
Spark | Sim | Não | Não |
Executar pacote SSIS | Sim | Sim | Não |
Fluxo de controle | Sim | Sim | Sim |
Acessar dados locais | Sim | Sim | Não |
Funcionalidades de escalabilidade
Capacidade | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie no HDInsight |
---|---|---|---|
Escalar verticalmente | Sim | Não | Não |
Escalar horizontalmente | Sim | Não | Sim (com a adição de nós de trabalho ao cluster) |
Otimizado para Big Data | Sim | Não | Sim |
Colaboradores
Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos colaboradores a seguir.
Autor principal:
- Zoiner Tejada | CEO e arquiteto
Próximas etapas
- Pipelines e atividades no Azure Data Factory e no Azure Synapse Analytics
- Provisionar o Azure-SSIS Integration Runtime no Azure Data Factory
- Oozie no HDInsight