Sélectionner une technologie de stockage de Big Data dans Azure
Cet article compare les options de stockage de données pour les solutions de big data, plus précisément le stockage de données pour l’ingestion de données en masse et le traitement par lots, par opposition aux datastores analytiques ou à l’ingestion de flux en temps réel.
Quelles sont vos options à l’heure de choisir un stockage de données dans Azure ?
En fonction de vos besoins, il existe plusieurs options disponibles pour l’ingestion de données dans Azure.
Lac de données logique unifié :
Stockage de fichiers :
Bases de données NoSQL :
Bases de données analytiques :
OneLake dans Fabric
OneLake dans Fabric est un lac de données logique et unifié conçu pour l’ensemble de l’organisation. Il sert de hub central pour toutes les données analytiques et est inclus avec chaque tenant de Microsoft Fabric. OneLake dans Fabric est basé sur la fondation de Data Lake Storage Gen2.
OneLake dans Fabric :
- Prend en charge les types de fichiers structurés et non structurés.
- Stocke toutes les données tabulaires au format Delta Parquet.
- Fournit un lac de données unique dans les limites du tenant, gouverné par défaut.
- Prend en charge la création d’espaces de travail au sein d’un tenant afin qu’une organisation puisse distribuer la propriété et les politiques d’accès.
- Prend en charge la création de divers éléments de données, tels que des lakehouses et des entrepôts, à partir desquels vous pouvez accéder aux données.
OneLake dans Fabric sert de lieu de stockage commun pour l’ingestion, la transformation, les informations en temps réel et les visualisations de business intelligence. Il centralise divers services Fabric et stocke les éléments de données que toutes les charges de travail utilisent dans Fabric. Pour choisir le bon datastore pour vos charges de travail Fabric, veuillez consulter la section Guide de décision Fabric : choisir un datastore.
Objets blob de stockage Azure
Le stockage Azure est un service de stockage managé hautement disponible, sécurisé, durable, évolutif et redondant. Microsoft prend en charge la maintenance et gère les problèmes critiques pour vous. Le stockage Azure est la solution de stockage la plus omniprésente d’'Azure, en raison du nombre de services et d’outils qu’elle permet d’utiliser.
Vous pouvez utiliser divers services de stockage Azure pour stocker vos données. Le service Stockage Blob est l’option la plus flexible pour stocker les objets blob provenant de nombreuses sources de données. Les objets blob sont en fait des fichiers. Ils stockent des images, des documents, des fichiers HTML, des disques durs virtuels (VHD), du Big Data, par exemple les journaux, les sauvegardes de bases de données, etc., autrement dit à peu près tout. Les objets blob sont stockés dans des conteneurs, équivalents à des dossiers. Un conteneur regroupe un ensemble d’objets blob. Un compte de stockage peut contenir un nombre illimité de conteneurs, et un conteneur peut stocker un nombre illimité d’objets blob.
Le stockage Azure est un choix judicieux pour les solutions de Big Data et d’analyse, en raison de sa flexibilité, sa haute disponibilité et son faible coût. Il fournit des niveaux de stockage chaud, froid et archive pour différents cas d’usage. Pour plus d’informations, consultez Stockage Blob Azure : Niveaux de stockage chaud, froid et archive.
Le stockage d’objets blob Azure est accessible à partir de Hadoop (disponible via HDInsight). HDInsight peut utiliser un conteneur d’objets blob dans le stockage Azure comme système de fichiers par défaut pour le cluster. Grâce à une interface Hadoop Distributed File System (HDFS) fournie par un pilote WASB, l'ensemble des composants de HDInsight peut opérer directement sur des données structurées ou non structurées stockées sous forme de blobs. Le stockage Blob Azure est également accessible via Azure Synapse Analytics à l'aide de sa fonctionnalité PolyBase.
Parmi les autres fonctionnalités qui font du stockage Azure un choix idéal, citons les suivantes :
- Stratégies d’accès concurrentiel multiples
- Options de récupération d’urgence et de haute disponibilité
- Chiffrement au repos
- Contrôle d'accès Azure basé sur les rôles (RBAC) pour contrôler l'accès à l'aide d'utilisateurs et de groupes Microsoft Entra.
Data Lake Storage Gen2
Data Lake Storage Gen2 est un référentiel unique et centralisé où vous pouvez stocker toutes vos données, à la fois structurées et non structurées. Un lac de données permet à votre organisation de stocker, d’accéder et d’analyser rapidement et facilement un large éventail de données dans un même emplacement. Avec un lac de données, vous n’avez pas besoin de vous conformer à vos données pour les adapter à une structure existante. Au lieu de cela, vous pouvez stocker vos données dans un format brut ou natif, généralement sous la forme de fichiers ou d’objets BLOB (Binary Large Object).
Data Lake Storage Gen2 fait converger les fonctionnalités d’Azure Data Lake Storage Gen1 avec le service Stockage Blob Azure. Par exemple, Data Lake Storage Gen2 fournit une sémantique du système de fichiers, une sécurité au niveau des fichiers et la mise à l’échelle. Comme ces fonctionnalités sont basées sur le Stockage Blob, vous bénéficiez également d’un stockage hiérarchisé à faible coût avec des fonctionnalités de haute disponibilité et de récupération d’urgence.
Data Lake Storage Gen2 fait du stockage Azure la base pour créer des dépôts Data Lake d’entreprise sur Azure. Conçu dès le départ pour traiter plusieurs téraoctets d’informations tout en assurant des centaines de gigaoctets de débit, Data Lake Storage Gen2 vous permet de facilement gérer d'importants volumes de données.
Azure Cosmos DB
Azure Cosmos DB est un service de base de données multimodèle mondialement distribué de Microsoft. Azure Cosmos DB garantit des latences à un seul chiffre en millisecondes au 99e centile partout dans le monde, fournit plusieurs modèles de cohérence bien définis pour affiner les performances et garantit une haute disponibilité avec des capacités multi-homing.
Azure Cosmos DB est sans schéma. Il indexe automatiquement toutes les données sans avoir à s’occuper de la gestion des schémas et des index. Il est également multimodèle. Les modèles de données de types documents, valeurs clés, graphiques et colonnes sont pris en charge en mode natif.
Fonctionnalités d’Azure Cosmos DB :
- Géoréplication
- Mise à l’échelle élastique du débit et du stockage à l’échelon mondial
- Cinq niveaux de cohérence bien définis
HBase sur HDInsight
Apache HBase est une base de données NoSQL open source, basée sur Hadoop et modélisée d'après Google BigTable. HBase fournit un accès aléatoire et une forte cohérence pour de vastes quantités de données non structurées et semi-structurées, dans une base de données sans schéma, organisée par familles de colonnes.
Les données sont stockées dans les lignes d'une table et les données au sein d'une ligne sont regroupées par familles de colonnes. HBase est sans schéma dans le sens où ni les colonnes ni le type de données qui y sont stockées ne doivent être définis avant de pouvoir les utiliser. Le code open source peut être mis à l'échelle de façon linéaire pour gérer des pétaoctets de données dans des milliers de nœuds. Il peut reposer sur la redondance des données, le traitement par lots et d'autres fonctionnalités qui sont fournies par des applications distribuées dans l'écosystème Hadoop.
La mise en œuvre de HDInsight utilise l'architecture scale-out de HBase pour fournir un sharding automatique des tables, une cohérence forte pour les lectures et les écritures, et un basculement automatique. Les performances sont optimisées par la mise en cache en mémoire des lectures et par des écritures en diffusion à débit élevé. Dans la plupart des cas, vous souhaitez créer le cluster HBase à l’intérieur d’un réseau virtuel afin que d’autres clusters HDInsight et applications puissent accéder directement aux tables.
Explorateur de données Azure
Azure Data Explorer est un service d’exploration de données rapide et hautement scalable pour les données des journaux et les données de télémétrie. Il vous aide à gérer les nombreux flux de données émis par les logiciels actuels pour vous permettre de collecter, de stocker et d’analyser les données. L’Explorateur de données Azure est idéal pour analyser des grands volumes de données provenant de n’importe quelle source de données, comme des sites web, des applications, des appareils IoT et plus encore. Ces données sont utilisées pour les diagnostics, la supervision, la création de rapports, l’apprentissage automatique et d’autres fonctionnalités d’analytique. Azure Data Explorer facilite l’ingestion de ces données et vous permet de réaliser des requêtes complexes non planifiées sur les données en quelques secondes.
Azure Data Explorer peut faire l’objet d’un scale-out linéaire pour augmenter l’ingestion et le débit de traitement des requêtes. Un cluster Azure Data Explorer peut être déployé sur un réseau virtuel pour activer des réseaux privés.
Critères de sélection principaux
Pour restreindre les choix, commencez par répondre aux questions suivantes :
Avez-vous besoin d’un lac de données unifié avec prise en charge multicloud, gouvernance robuste et intégration transparente avec les outils analytiques ? Si oui, alors choisissez OneLake dans Fabric pour une gestion simplifiée des données et une collaboration améliorée.
Avez-vous besoin d'un stockage managé, rapide et basé sur le cloud pour tout type de données texte ou binaires ? Si oui, alors choisissez l’une des options de stockage de fichiers ou d’analytique.
Avez-vous besoin d’un stockage de fichiers optimisé pour des charges de travail d’analyse parallèles et un haut débit ou un nombre élevé d’E/S par seconde ? Si oui, choisissez une option privilégiant les performances des charges de travail d’analyse.
Avez-vous besoin de stocker des données non structurées ou semi-structurées dans une base de données sans schéma ? Si c’est le cas, sélectionnez l’une des options non relationnelles ou analytiques. Comparez les options disponibles pour l’indexation et les modèles de base de données. En fonction du type de données que vous devez stocker, les principaux modèles de base de données peuvent être le facteur déterminant.
Pouvez-vous utiliser le service dans votre région ? Vérifiez la disponibilité régionale de chaque service Azure. Pour plus d’informations, consultez Disponibilité des produits par région.
Matrice des fonctionnalités
Les tableaux suivants résument les principales différences entre les fonctionnalités.
Capacités de OneLake dans Fabric
Fonctionnalité | OneLake dans Fabric |
---|---|
Lac de données unifié | Fournit un lac de données unifié unique pour l’ensemble de l’organisation, ce qui élimine les silos de données. |
Prise en charge multicloud | Prend en charge l’intégration et la compatibilité avec diverses plateformes cloud. |
Gouvernance des données | Inclut des fonctionnalités telles que la traçabilité des données, la protection des données, la certification et l’intégration de catalogues. |
Hub de données centralisé | Agit comme un hub centralisé pour la découverte et la gestion des données. |
Prise en charge des moteurs analytiques | Compatible avec plusieurs moteurs analytiques. Cette compatibilité permet à divers outils et technologies de fonctionner sur les mêmes données. |
Sécurité et conformité | Assure que les données sensibles restent sécurisées et que l’accès est limité aux utilisateurs autorisés uniquement. |
Simplicité d'utilisation | Fournit une conception conviviale qui est automatiquement disponible avec chaque tenant Fabric et ne nécessite aucune configuration. |
Évolutivité | Capable de gérer de grands volumes de données provenant de diverses sources. |
Fonctionnalités de stockage de fichiers
Fonctionnalité | Data Lake Storage Gen2 | Conteneurs de stockage d’objets blob Azure |
---|---|---|
Objectif | Stockage optimisé pour les charges de travail d’analyse de données volumineuses | Magasin d’objets polyvalent adapté à un large éventail de scénarios de stockage |
Cas d'utilisation | Données par lots, d’analyse de diffusion en continu et d’apprentissage machine (par exemple, fichiers journaux, données IoT, données sur le parcours de navigation, jeux de données volumineux) | N’importe quel type de données texte ou binaires, par exemple données d’application principale, de sauvegarde, de stockage de médias pour la diffusion en continu, et d’usage général |
Structure | Système de fichiers hiérarchique | Magasin d’objets avec espace de noms plat |
Authentification | En fonction des identités Microsoft Entra | Basées sur les secrets partagés : clés d’accès au compte, clés de signature d’accès partagé et contrôle d’accès en fonction du rôle Azure (RBAC Azure) |
Protocole d’authentification | Autorisation ouverte (OAuth) 2.0. Les appels doivent contenir un JWT (JSON Web Token) valide émis par Microsoft Entra ID | Code d’authentification de message basé sur le hachage (HMAC). Les appels doivent contenir un hachage SHA-256 codé en Base64 sur une partie de la requête HTTP. |
Autorisation | Listes de contrôle d’accès (ACL) de POSIX (Portable Operating System Interface). Les listes ACL basées sur les identités Microsoft Entra peuvent être définies au niveau du fichier et du dossier. | Pour l’autorisation au niveau des comptes, utilisez des clés d’accès au compte. Pour l’autorisation au niveau d'un compte, d'un conteneur ou d'un objet blob, utilisez des clés de signature d’accès partagé. |
Audit | Disponible. | Disponible |
Chiffrement au repos | Transparent, côté serveur | Transparent, côté serveur ; chiffrement côté client |
Kits de développement logiciel pour développeur | .NET, Java, Python, Node.js | .NET, Java, Python, Node.js, C++, Ruby |
Performances des charges de travail d’analyse | Optimisation des performances pour les charges de travail d’analyse parallèles, haut débit et nombre élevé d’E/S par seconde | Non optimisé pour les charges de travail d’analyse |
Limites de taille | Aucune limite de taille pour les comptes, les fichiers ou le nombre de fichiers | Limites spécifiques documentées ici |
Géo-redondance | Redondant localement (stockage redondant localement (LRS)), redondant globalement (stockage géo-redondant (GRS)), redondant globalement en lecture seule (stockage géo-redondant en lecture seule (RA-GRS)), redondant par zone (stockage redondant par zone (ZRS)). | Stockage localement redondant (LRS), stockage redondant interzone (ZRS), stockage géoredondant (GRS), stockage géographiquement redondant avec accès en lecture (RA-GRS). Pour plus d'informations, consultez la rubrique Redondance d'Azure Storage. |
Fonctionnalités de base de données NoSQL
Fonctionnalité | Azure Cosmos DB | HBase sur HDInsight |
---|---|---|
Modèle de base de données primaire | Stockage de documents, graphiques, stockage de valeurs clés, stockage de colonnes larges | Stockage de colonnes larges |
Index secondaires | Oui | Non |
Prise en charge du langage SQL | Oui | Oui (à l’aide du pilote JDBC Phoenix) |
Cohérence | Fort, Obsolescence limitée, Session, Préfixe cohérent et Éventuel | Remarque |
Intégration native à Azure Functions | Oui | Non |
Distribution mondiale automatique | Oui | Aucune réplication de cluster HBase ne peut être configurée entre les régions avec une cohérence finale |
Modèle de tarification | Unités de requête (RU) avec mise à l’échelle élastique facturées par seconde en fonction des besoins, stockage avec mise à l’échelle élastique | Prix par minute du cluster HDInsight (mise à l’échelle horizontale des nœuds), stockage |
Fonctionnalités de base de données analytique
Fonctionnalité | Explorateur de données Azure |
---|---|
Modèle de base de données primaire | Magasin relationnel (stockage de colonnes), télémétrie et série chronologique |
Prise en charge du langage SQL | Oui |
Modèle de tarification | Instances de cluster scalables de façon élastique |
Authentification | En fonction des identités Microsoft Entra |
Chiffrement au repos | Pris en charge, clés gérées par le client |
Performances des charges de travail d’analyse | Optimisation des performances pour les charges de travail d’analytique parallèles |
Limites de taille | Scalabilité linéaire |
Contributeurs
Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.
Auteur principal :
- Zoiner Tejada | CEO et Architecte
Étapes suivantes
- Qu'est-ce que c’est Fabric
- Introduction aux analyses de bout en bout à l’aide de Fabric
- Solutions et services de stockage cloud Azure
- Évaluer votre options de stockage
- Introduction à Azure Storage
- Présentation d’Azure Data Explorer