Normes relatives aux métadonnées
La gestion des métadonnées joue un rôle crucial dans l’architecture des données. Les métadonnées sont des données relatives à d’autres données. Il décrit les données, fournissant une référence qui vous aide à trouver, sécuriser et contrôler les données. Les métadonnées servent également à relier des données. Elles peuvent être utilisées pour valider l’intégrité et la qualité des données, acheminer ou répliquer des données vers un nouvel emplacement, transformer des données et connaître leur signification. Elles sont tout aussi essentielles pour démocratiser les données par le biais de portails en libre-service.
Une tendance croissante dans l’industrie consiste à rapprocher les insights des données des analystes et des scientifiques via des portails qui utilisent davantage de métadonnées. Cette tendance est appelée observabilité des données. Elle s’appuie sur des concepts tels que le lac de métadonnées, les graphes de connaissances ou les graphes de métadonnées pour décrire les plateformes où sont centralisées les métadonnées. C’est un bon moyen pour vous de créer une vue unifiée de l’utilisation et de la provenance des données au sein de votre organisation en utilisant un data mesh distribué.
Une bonne stratégie de gestion des métadonnées augmente de manière organique. Elle commence de manière simple et modeste en identifiant d’abord les zones les plus importantes. Elle doit également s’appuyer sur des services et des processus clairs. Pour commencer, il est utile de connaître les différentes catégories de métadonnées :
- Les métadonnées métier décrivent tous les aspects utilisés pour la gouvernance, la découverte et l’analyse des données. Quelques exemples connus : termes et définitions métier ; informations sur la propriété, l’utilisation et l’origine des données.
- Les métadonnées techniques décrivent les aspects structurels des données au moment de la conception. Quelques exemples connus : informations relatives au schéma ; format de données et informations relatives au protocole ; clés de chiffrement et de déchiffrement.
- Les métadonnées opérationnelles décrivent le traitement des différents aspects des données au moment de l’exécution. Quelques exemples connus : informations relatives au processus ; temps d’exécution ; informations sur l’échec du processus ; ID de travail.
- Les métadonnées sociales décrivent la perspective utilisateur des données provenant des consommateurs. Quelques exemples connus : informations d’utilisation et de suivi des utilisateurs ; données de résultats de recherche ; filtres et clics ; temps d’affichage ; accès au profil ; commentaires.
Dans l’architecture de données décentralisée, la gestion des métadonnées représente un défi organisationnel qui implique de trouver un équilibre entre les métadonnées gérées de manière centralisée et les métadonnées gérées fédérées. Il est important de comprendre les équipes et les fonctions d’analytique à l’échelle du cloud dans Azure pour planifier la gestion des métadonnées. L’utilisation d’une pratique de gestion des données collaborative améliore la communication, l’intégration et l’automatisation des flux de données entre les équipes. Vous pouvez résoudre une partie de la complexité de la gestion des métadonnées en trouvant l’équilibre entre la gouvernance centrale et la propriété du domaine.
Alors que vous décidez quelles métadonnées gérer de manière centralisée ou fédérée dans vos domaines de données et commencez votre implémentation, posez-vous les questions suivantes :
- Quelles sont les métadonnées métier critiques ?
- Quelles sont les métadonnées techniques requises pour l’interopérabilité ?
- Quels sont les processus et flux qui capturent les données ?
- Où sont créés et gérés les modèles et les schémas ?
- Quelles sont les informations que les équipes doivent fournir de manière centralisée pour permettre au service de gouvernance des données de faire correctement son travail ?
En utilisant vos réponses à ces questions, cartographiez le cycle de vie du contenu pour chacun de vos flux de métadonnées et déterminez toutes les dépendances. Vous disposerez alors d’un modèle de métadonnées capable de relier des domaines métier, des processus, des technologies et des données.
Une fois que vous connaissez les métadonnées dont vous avez besoin, vous devez choisir un emplacement pour les stocker et les traiter. Vous pouvez le faire en utilisant Microsoft Purview.
Utilisez Microsoft Purview pour gérer votre patrimoine de données à grande échelle
Microsoft Purview est une solution unifiée de gouvernance des données qui vous aide à gérer et à gouverner vos données locales, multicloud et SaaS (Software-as-a-Service). Il permet une gestion des métadonnées à grande échelle, car c’est un service entièrement automatisé qui effectue intelligemment la découverte des données, la numérisation des données, la gestion de la qualité des données et la gestion des accès. Elle fournit également une carte holistique de nombreuses informations sur votre architecture de maillage de données.
Microsoft Purview est un ensemble complet de solutions qui peuvent aider votre organisation à gouverner, protéger et gérer des données où qu’elles soient. Les solutions Microsoft Purview offrent une couverture intégrée et permettent de résoudre la fragmentation des données dans les organisations, l’absence de visibilité qui entrave la gouvernance et la protection des données et le flou des rôles de gestion informatique traditionnels.
Microsoft Purview combine des solutions et des services de gouvernance et de conformité des données au sein d'une plateforme unifiée pour aider votre organisation :
- Obtenir une visibilité sur les données au sein de votre organisation
- Protéger et gérer les données sensibles tout au long de leur cycle de vie, où qu’elles se trouvent
- Régir les données en toute transparence par des méthodes révisées et exhaustives
- Gérer les risques critiques liés aux données et les exigences réglementaires
Lors de la mise en œuvre de Microsoft Purview, n'introduisez pas trop de changements et de complexité rapidement. Les métadonnées techniques constituent la base de Microsoft Purview. Vous devez collecter et organiser vos métadonnées pour pouvoir leur donner un sens.
Une fois que vous avez recueilli vos métadonnées, commencez par les principes de base :
- Termes entreprise
- Listes de sources de données faisant autorité
- Listes de bases de données
- Domaines de gouvernance
- Informations de schéma
- Propriété des données
- Coordination des données
- Sécurité
- Qualité des données
Ensuite, faites évoluer votre système en impliquant d’autres propriétaires de domaine et gérants de données et en ajoutant davantage de classifications et d’étiquettes de confidentialité. Ces ajouts améliorent l’expérience de recherche et permettent une meilleure gestion de l’accès aux données.
Microsoft Purview offre une fonctionnalité appelée Domaines de gouvernance, qui établit des limites pour la gouvernance unifiée, la propriété et la découverte des produits de données et des concepts commerciaux au sein de votre architecture orientée domaine. Pour plus d'informations, voir Domaines de gouvernance dans Microsoft Purview.
Utilisez Azure Cosmos DB pour créer un graphe de connaissances (Knowledge Graph).
Une solution d’insights sur les données doit décrire la manière dont celles-ci sont utilisées et les relations entre les entités (données sources et produits de données par exemple) et entre les produits de données d’un domaine et les produits dépendants d’un autre domaine. Vous pouvez vous servir d’une base de données de graphe ou d’une interface utilisateur personnalisée pour modéliser ces relations.
Pour créer une vue unifiée des données de votre organisation avec une expérience utilisateur personnalisée, tournez-vous vers Azure Cosmos DB. Il s’agit d’un service de base de données multimodèle distribué à l’échelle mondiale qui est doté de points de terminaison NoSQL. Il fournit un service de base de données de graphe par le biais d’Azure Cosmos DB for Apache Gremlin pour stocker des graphes volumineux comportant des milliards de sommets et d’arêtes.
Le résultat final de l’architecture d’Azure Cosmos DB consiste en un graphe à l’échelle de l’organisation qui fournit une vue unifiée de toutes les données de votre organisation à l’aide d’un contexte de bout en bout. Le lac de métadonnées ne sert pas seulement à stocker des informations. Il organise activement les métadonnées sous forme de graphe en les reliant à d’autres services et outils. Ce graphe organisé vous permet de mettre en corrélation plusieurs domaines :
- Domaines
- Qualité des données
- Consommation des données
- Capacités d’entreprise
- Fonctions d’application
- Informations sur l’architecture technique
- Événements opérationnels
- Métadonnées organisationnelles
- Métadonnées de propriété d’application
- Informations sur l’emplacement
- Informations sur la gestion du cycle de vie des applications