Transférer des données vers et depuis Azure
Il existe plusieurs manières de transférer des données vers et à partir d’Azure, en fonction des besoins.
Transfert physique
Il est intéressant d’utiliser du matériel physique pour transférer des données vers Azure si :
- Votre réseau est lent ou peu fiable.
- Obtenir plus de bande passante pour le réseau est un coût prohibitif.
- Les stratégies de sécurité ou d'organisation n'autorisent pas les connexions sortantes lorsqu'il s'agit de données sensibles.
Si votre principale préoccupation est le temps nécessaire au transfert de vos données, vous pouvez effectuer un test pour vérifier si le transfert par le réseau est plus lent que le transport physique.
Il existe deux moyens de transporter physiquement les données vers Azure :
Service Azure Import/Export
Le service Azure Import/Export permet de transférer en toute sécurité de gros volumes de données vers le Stockage Blob Azure ou Azure Files en expédiant des disques durs ou des SSD SATA vers un centre de données Azure. Vous pouvez également utiliser ce service pour transférer des données du Stockage Azure vers des disques durs et vous faire expédier ces disques pour les charger sur place.
Azure Data Box
Azure Data Box est une appliance fournie par Microsoft qui fonctionne à peu près comme le service Import/Export. Avec Data Box, Microsoft vous envoie un appareil de transfert propriétaire, sécurisé et inviolable et gère la logistique de bout en bout, que vous pouvez suivre via le portail. L’un des avantages du service Data Box est sa facilité d’utilisation. Vous n’avez pas besoin d’acheter plusieurs disques durs, de les préparer et de transférer des fichiers dessus. Data Box est pris en charge par de nombreux partenaires Azure de premier plan afin de faciliter l’utilisation du transport hors connexion vers le cloud à partir de leurs produits.
API et outils en ligne de commande
Choisissez ces solutions si vous souhaitez transférer les données par script et par programmation :
Azure CLI est un outil multiplateforme permettant de gérer les services Azure et de charger des données sur le Stockage.
AzCopy. Utilisez AzCopy dans une interface de ligne de commande Windows ou Linux pour copier facilement des données vers et à partir du Stockage Blob Azure, du Stockage Fichier Azure et du Stockage Table Azure avec des performances optimales. Il prend en charge la concurrence et le parallélisme, ainsi que la possibilité de reprendre les opérations de copie après une interruption. Vous pouvez également utiliser AzCopy pour copier des données d'AWS vers Azure. Pour un accès par programme, la bibliothèque Mouvement de données du Stockage Microsoft Azure est l’infrastructure de base d’AzCopy. Elle est fournie en tant que bibliothèque .NET Core.
Avec PowerShell, l’applet de commande PowerShell Start-AzureStorageBlobCopy est une option pour les administrateurs Windows qui sont habitués à PowerShell.
AdlCopy vous permet de copier des données du Stockage Blob vers Azure Data Lake Storage. Il peut également servir à copier des données entre deux comptes Data Lake Storage. Cependant, il ne peut pas être utilisé pour copier des données de Data Lake Storage vers le Stockage Blob.
Distcp est utilisé pour copier des données vers et depuis un stockage en cluster HDInsight (WASB) dans un compte Data Lake Storage.
Sqoop est un projet Apache qui fait partie de l’écosystème Hadoop. Il est préinstallé sur tous les clusters HDInsight. Il permet le transfert de données entre un cluster HDInsight et des bases de données relationnelles comme SQL, Oracle, MySQL, etc. Sqoop est une collection d’outils connexes qui comprend notamment des outils d’importation et d’exportation. Il fonctionne avec des clusters HDInsight en utilisant le Stockage Blob ou le stockage attaché Data Lake Storage.
PolyBase est une technologie qui accède aux données extérieures à la base de données avec le langage T-SQL. Dans SQL Server 2016, elle permet d’exécuter des requêtes sur des données externes dans Hadoop ou d’importer ou exporter des données à partir du Stockage Blob. Dans Azure Synapse Analytics, vous pouvez importer ou exporter des données à partir du Stockage Blob et de Data Lake Storage. Actuellement, PolyBase est le moyen le plus rapide d'importer des données dans Azure Synapse Analytics.
Utilisez la ligne de commande Hadoop lorsque vous disposez de données qui résident sur un nœud principal de cluster HDInsight. Vous pouvez utiliser la commande
hadoop -copyFromLocal
pour copier ces données sur le stockage attaché de votre cluster, comme le Stockage Blob ou Data Lake Storage. Pour pouvoir utiliser la commande Hadoop, vous devez d'abord vous connecter au nœud principal. Vous pourrez alors charger un fichier dans le stockage.
Interface graphique
Envisagez les options suivantes si vous ne transférez que quelques fichiers ou objets de données et que vous n'avez pas besoin d'automatiser le processus.
L’Explorateur Stockage Azure est un outil multiplateforme qui vous permet de gérer le contenu de vos comptes de stockage Azure. Avec lui, vous pouvez charger, télécharger et gérer des objets blob, des fichiers, des files d’attente, des tables et des entités Azure Cosmos DB. Utilisez-le avec le Stockage Blob pour gérer des objets blob et des dossiers, et pour charger et télécharger des objets blob entre votre système de fichiers local et le Stockage Blob, ou entre deux comptes de stockage.
Portail Azure. Le Stockage Blob et Data Lake Storage offrent tous deux une interface web pour explorer les fichiers et en charger de nouveaux. C’est une bonne option si vous ne voulez pas installer d’outils ni lancer de commandes pour explorer rapidement vos fichiers, ou si vous voulez charger quelques nouveaux fichiers.
Synchronisation des données et pipelines
Azure Data Factory est un service managé qui convient parfaitement au transfert régulier de fichiers entre plusieurs services Azure, systèmes locaux, ou une combinaison des deux. Avec Azure Data Factory, vous pouvez créer et planifier des workflows pilotés par les données, (appelés pipelines), qui peuvent ingérer des données provenant de magasins de données disparates. Data Factory peut traiter et transformer les données en utilisant des services de calcul comme Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics et Azure Machine Learning. Vous pouvez créer des workflows pilotés par les données pour orchestrer et automatiser le déplacement et la transformation des données.
Les pipelines et les activités dans Data Factory et Azure Synapse Analytics peuvent être utilisés pour construire des workflows pilotés par les données de bout en bout pour vos scénarios de déplacement et de traitement des données. De plus, le runtime d’intégration Azure Data Factory est utilisé pour fournir des fonctionnalités d'intégration de données dans différents environnements réseau.
Azure Data Box Gateway transfère les données vers et depuis Azure, mais il s’agit d’une appliance virtuelle et non d’un disque dur. Les machines virtuelles résidant dans votre réseau local écrivent des données dans Data Box Gateway à l’aide des protocoles NFS (Network File System) et SMB. L’appareil transfère ensuite vos données vers Azure.
Critères de sélection principaux
Dans les scénarios de transfert de données, choisissez le système adapté à vos besoins en répondant à ces questions :
Avez-vous besoin de transférer de grandes quantités de données, pour lesquelles une connexion Internet prendrait trop de temps, serait peu fiable ou trop chère ? Si oui, optez pour le transfert physique.
Préférez-vous écrire un script pour vos tâches de transfert de données, afin qu'elles soient réutilisables ? Si oui, sélectionnez l’une des solutions en ligne de commande ou Data Factory.
Vous devez transférer une grande quantité de données sur une connexion réseau ? Si oui, sélectionnez une solution optimisée pour le Big Data.
Avez-vous besoin de transférer des données vers ou à partir d’une base de données relationnelle ? Si oui, choisissez une solution qui prend en charge une ou plusieurs bases de données relationnelles. Certaines de ces options nécessitent également un cluster Hadoop.
Avez-vous besoin d’une orchestration automatisée du workflow ou du pipeline de données ? Si oui, pensez à Data Factory.
Matrice des fonctionnalités
Les tableaux suivants résument les principales différences entre les fonctionnalités.
Transfert physique
Fonctionnalité | Service d’importation/exportation | Data Box |
---|---|---|
Facteur de forme | Disques durs ou SSD SATA internes | Appliance matérielle unique, sécurisée et inviolable |
Microsoft gère la logistique d’expédition | Non | Oui |
S’intègre avec les produits partenaires | Non | Oui |
Appliance personnalisée | Non | Oui |
Outils de ligne de commande
Hadoop/HDInsight :
Fonctionnalité | DistCp | Sqoop | Interface CLI Hadoop |
---|---|---|---|
Optimisé pour le Big Data | Oui | Oui | Oui |
Copie vers une base de données relationnelle | Non | Oui | Non |
Copie à partir d’une base de données relationnelle | Non | Oui | Non |
Copie vers le Stockage Blob | Oui | Oui | Oui |
Copie à partir du Stockage Blob | Oui | Oui | Non |
Copie vers Data Lake Storage | Oui | Oui | Oui |
Copie à partir de Data Lake Storage | Oui | Oui | Non |
Autres :
Fonctionnalité | L’interface de ligne de commande Microsoft Azure | AzCopy | PowerShell | AdlCopy | PolyBase |
---|---|---|---|---|---|
Plateformes compatibles | Linux, OS X, Windows | Linux, Windows | Windows | Linux, OS X, Windows | SQL Server, Azure Synapse Analytics |
Optimisé pour le Big Data | Non | Oui | Non | Oui 1 | Oui 2 |
Copie vers une base de données relationnelle | Non | Non | Non | Non | Oui |
Copie à partir d’une base de données relationnelle | Non | Non | Non | Non | Oui |
Copie vers le Stockage Blob | Oui | Oui | Oui | No | Oui |
Copie à partir du Stockage Blob | Oui | Oui | Oui | Oui | Oui |
Copie vers Data Lake Storage | Non | Oui | Oui | Oui | Oui |
Copie à partir de Data Lake Storage | Non | Non | Oui | Oui | Oui |
[1] AdlCopy est optimisé pour le transfert de données volumineuses lorsqu’il est utilisé avec un compte Data Lake Analytics.
[2] Vous pouvez améliorer les performances de PolyBase en envoyant (push) les calculs sur Hadoop et en utilisant des groupes de scale-out PolyBase pour permettre le transfert de données en parallèle entre les instances SQL Server et les nœuds Hadoop.
Interfaces graphiques, synchronisation des données et pipelines de données
Fonctionnalité | Explorateur de stockage Azure | Portail Azure* | Data Factory | Data Box Gateway |
---|---|---|---|---|
Optimisé pour le Big Data | Non | Non | Oui | Oui |
Copie vers une base de données relationnelle | Non | Non | Oui | Non |
Copie à partir d’une base de données relationnelle | Non | Non | Oui | Non |
Copie vers le Stockage Blob | Oui | No | Oui | Oui |
Copie à partir du Stockage Blob | Oui | No | Oui | Non |
Copie vers Data Lake Storage | Non | Non | Oui | Non |
Copie à partir de Data Lake Storage | Non | Non | Oui | Non |
Chargement vers le Stockage Blob | Oui | Oui | Oui | Oui |
Chargement vers Data Lake Storage | Oui | Oui | Oui | Oui |
Orchestration des transferts de données | Non | Non | Oui | Non |
Transformations de données personnalisées | Non | Non | Oui | Non |
Modèle de tarification | Gratuit | Gratuit | Paiement à l’utilisation | Payer par unité |
Le portail Azure représente dans ce cas les outils web d’exploration pour le Stockage Blob et Data Lake Storage.
Contributeurs
Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.
Auteur principal :
- Zoiner Tejada | CEO et Architecte
Étapes suivantes
- Qu’est-ce que le service Azure Import/Export ?
- Qu’est-ce qu’Azure Data Box ?
- Qu’est-ce qu’Azure CLI ?
- Bien démarrer avec AzCopy
- Prise en main de l’Explorateur Stockage
- Présentation d’Azure Data Factory
- Présentation d’Azure Data Box Gateway