Choisir une technologie d’orchestration de pipeline de données dans Azure
La plupart des solutions Big Data se composent d’opérations répétées de traitement des données, encapsulées dans les flux de travail. Un orchestrateur de pipeline est un outil qui permet d’automatiser ces flux de travail. Un orchestrateur peut planifier des travaux, exécuter des flux de travail et coordonner les dépendances entre les tâches.
Quelles sont vos options d’orchestration de pipeline de données ?
Dans Azure, les services et outils suivants répondent aux exigences principales pour l’orchestration de pipeline, le flux de contrôle et le déplacement des données :
- Azure Data Factory
- Oozie sur HDInsight
- SQL Server Integration Services (SSIS)
Ces services et outils peuvent être utilisés indépendamment les uns des autres, ou utilisés ensemble pour créer une solution hybride. Par exemple, le runtime d’intégration (IR) dans Azure Data Factory V2 peut exécuter en mode natif des packages SSIS dans un environnement de calcul Azure managé. Bien qu’il y ait un chevauchement entre ces services, il existe quelques différences clés.
Critères de sélection clés
Pour limiter les choix, commencez par répondre à ces questions :
Avez-vous besoin de fonctionnalités Big Data pour déplacer et transformer vos données ? Cela signifie généralement plusieurs gigaoctets à des téraoctets de données. Si oui, limitez vos options à celles qui conviennent le mieux au Big Data.
Avez-vous besoin d’un service managé qui peut fonctionner à grande échelle ? Si c’est le cas, sélectionnez l’un des services cloud qui ne sont pas limités par votre puissance de traitement locale.
Certaines de vos sources de données se trouvent-elles localement ? Si c’est le cas, recherchez des options qui peuvent fonctionner à la fois avec des sources de données cloud et locales ou des destinations.
Vos données sources sont-elles stockées dans le stockage Blob sur un système de fichiers HDFS ? Si c’est le cas, choisissez une option qui prend en charge les requêtes Hive.
Matrice de capacité
Les tableaux suivants résument les principales différences de fonctionnalités.
Fonctionnalités générales
Capacité | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie sur HDInsight |
---|---|---|---|
Adresses IP gérées | Oui | Non | Oui |
Basé sur le cloud | Oui | Non (Local) | Oui |
Prérequis | Abonnement Azure | SQL Server | Abonnement Azure, cluster HDInsight |
Outils de gestion | Portail Azure, PowerShell, CLI, Kit de développement logiciel (SDK) .NET | SSMS, PowerShell | Interpréteur de commandes Bash, API REST Oozie, interface utilisateur web Oozie |
Tarification | Paiement par utilisation | Licences / paiement pour les fonctionnalités | Aucun frais supplémentaire en plus de l’exécution du cluster HDInsight |
Fonctionnalités de pipeline
Capacité | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie sur HDInsight |
---|---|---|---|
Copier des données | Oui | Oui | Oui |
Transformations personnalisées | Oui | Oui | Oui (travaux MapReduce, Pig et Hive) |
Notation d’Azure Machine Learning | Oui | Oui (avec script) | Non |
HDInsight à la demande | Oui | Non | Non |
Azure Batch | Oui | Non | Non |
Pig, Hive, MapReduce | Oui | Non | Oui |
Spark | Oui | Non | Non |
Exécuter le package SSIS | Oui | Oui | Non |
Flux de contrôle | Oui | Oui | Oui |
Accéder aux données locales | Oui | Oui | Non |
Fonctionnalités d’extensibilité
Capacité | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie sur HDInsight |
---|---|---|---|
Monter en puissance | Oui | Non | Non |
Scale-out | Oui | Non | Oui (via l’ajout de nœuds de travail en cluster) |
Optimisé pour le Big Data | Oui | Non | Oui |
Contributeurs
Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.
Auteur principal :
- Zoiner Tejada | PDG et architecte
Étapes suivantes
- Pipelines et activités dans Azure Data Factory et Azure Synapse Analytics
- Provisionner le runtime d’intégration Azure-SSIS dans Azure Data Factory
- Oozie sur HDInsight