Intégration de Microsoft Purview et CluedIn pour la gestion des données master (GPM)

Article
11/20/2024

Cette architecture CluedIn fournit aux entreprises des métriques sur la qualité des données qu’elle ingère, en détectant intelligemment les données sale et en les préparant au nettoyage par les ingénieurs données et les gestionnaires de données. Les algorithmes d’apprentissage automatique de logique floue propriétaires aident les utilisateurs professionnels et les conservateurs à étiqueter les données et enseignent au système à identifier, corriger et prévenir les problèmes de qualité des données au fil du temps.

Architecture

Diagramme montrant la structure architecturale et le flux de données CluedIn.

Flux de données

La solution CluedIn se compose de différentes couches fonctionnelles qui s’exécutent dans un cluster Kubernetes dans Azure Kubernetes Service (AKS). Une combinaison d’applications de microservices .NET Core gère des fonctions distinctes telles que l’ingestion des données, le traitement des données de streaming, la mise en file d’attente et l’interface utilisateur.

La couche d’analyse CluedIn ingère des données à partir de sources cloud client telles que les bases de données Azure SQL DB, Azure Cosmos DB, PostgreSQL et Salesforce via des connecteurs Azure Data Factory.

CluedIn prend également des entrées à partir de systèmes accessibles locaux tels que SAP, Oracle, IBM et Hadoop, ou peut utiliser des agents locaux pour analyser des données non publiques.
Le service bus d’entreprise se connecte via les ports 5672 et 15672 pour les points de terminaison d’administration. Les robots envoient des données au bus, et la couche de traitement consomme les données du bus, sur le port 5672.
La couche journal des transactions prend les résultats de la couche de traitement.
Dans la couche de persistance, les bases de données consomment les données du journal des transactions et les conservent pour assurer une cohérence éventuelle entre les différents magasins de données. Tous les magasins s’exécutent en mode haute disponibilité (HA).

Contrairement à la virtualisation des données, la couche de persistance CluedIn ingère des parties des données sources et conserve la version la plus fidèle des données et leur structure. Cette haute fidélité signifie que CluedIn Data Fabric peut répondre aux demandes métier de données dans n’importe quel format ou modèle.
La couche d’abstraction des données se connecte aux différents magasins de données via les ports de chaque magasin.
L’accès aux données s’effectue via des appels GraphQL, REST et WebSockets sur le port 443. GraphQL et REST utilisent un modèle pull, et WebSockets utilise un modèle push.

CluedIn protège l’accès aux données par le biais de la limitation et de la prévention de la falsification de requête intersites (CSRF).
L’application web CluedIn ASP.NET Core communique via une combinaison d’appels REST et GraphQL sur le port 443.

Toutes les communications entre le navigateur et l’application utilisent un ensemble de définitions d’entrée, qui ne nécessitent qu’une seule adresse IP publique. Dans un environnement de production, toutes les communications s’effectuent via ssl (Secure Socket Layer).
L’application CluedIn fournit des données nettoyées et traitées à des services d’analyse tels que Power BI et Azure Synapse Analytics pour générer des insights. Le système sauvegarde et stocke toutes les données dans des bases de données SQL ou Redis.

Composants

CluedIn s’exécute sur Azure Kubernetes Service (AKS), un service Kubernetes hautement disponible, sécurisé et complètement managé pour le déploiement et la gestion d’applications conteneurisées. AKS offre Kubernetes serverless, ci/CD intégré, ainsi qu’une sécurité et une gouvernance de niveau entreprise.

CluedIn utilise et prend en charge de nombreuses sources et services de base de données, notamment :

Azure SQL Database, un service de base de données cloud relationnelle managé qui est toujours à jour et qui peut automatiquement mettre à l’échelle les ressources à la demande.
Azure SQL Managed Instance, pour une compatibilité étendue SQL Server moteur avec les applications SQL Server existantes. SQL Managed Instance fournit des infrastructures de base de données locales avec des avantages cloud Azure tels que la mise à l’échelle élastique, la gestion unifiée et un modèle de facturation cloud.
Azure Cosmos DB, une base de données serverless NoSQL non relationnelle entièrement managée pour le développement d’applications modernes.
Azure Data Lake, un service évolutif de stockage et d’analytique des données.
Azure Data Factory, solution d’intégration de données serverless entièrement managée pour l’ingestion, la préparation et la transformation de données à grande échelle. CluedIn utilise plus de 90 connecteurs Data Factory intégrés pour acquérir des données à partir de sources telles qu’Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow et tous les services de données Azure.

CluedIn fournit des données traitées et régies à de nombreuses applications et services d’analytique, notamment :

Azure Databricks, un service analytique rapide, facile et collaboratif basé sur Apache Spark.
Azure Synapse Analytics, un service d’analytique illimité qui regroupe l’entreposage de données d’entreprise et l’analytique Big Data.
Log Analytics, un outil Portail Azure pour modifier, exécuter et analyser des requêtes à partir des données de journal Azure Monitor.
Azure Cognitive Services, une famille complète de services d’IA et d’API cognitives pour la création d’applications intelligentes.
Power BI, un service d’analyse d’entreprise Microsoft qui combine des visualisations interactives et de l’aide à la décision avec une interface de création de rapports facile à utiliser.

Détails du scénario

Les entreprises modernes basent de nombreux processus et projets sur des données, mais les données brutes doivent être préparées pour la consommation. Les cas d’utilisation des données, de l’analytique avancée au Machine Learning, nécessitent tous des processus de préparation des données et une attention similaires.

Les projets de données commencent par la découverte des données, pour déterminer où se trouvent les données et les systèmes qu’elles utilisent.
L’intégration des données réunit ensuite plusieurs sources de données dans un jeu de données unifié ou connecté.
L’étape suivante consiste à normaliser, normaliser, harmoniser et propre les données afin que les machines puissent les traiter de manière uniforme, cohérente et haute fidélité.
Enfin, les données doivent être facilement et facilement disponibles pour les besoins de l’entreprise.

Au cours de ces processus, la gouvernance doit garantir le contrôle des données et la protection de la confidentialité avec une propriété claire, une traçabilité complète et une piste d’audit de l’origine, du traitement et de l’utilisation des données.

La plateforme CluedIn encapsule ces processus et piliers de gestion des données dans une solution master Gestion des données (GPM) cohérente, cohérente et cohérente. CluedIn utilise une technique d’intégration de données appelée connectivité éventuelle qui produit de meilleurs résultats que les modèles classiques d’extraction, de transformation, de chargement (ETL) ou d’extraction, de chargement, de transformation (ELT). La connectivité éventuelle utilise des requêtes GraphQL pour fusionner en toute transparence les données à partir de nombreuses sources de données en silos.

Avec une connectivité éventuelle, les données ne sont pas jointes ou fusionnées lors de l’entrée ou du chargement dans d’autres systèmes. Au lieu de cela, CluedIn charge les données telles quelles et étiquette les enregistrements à l’aide de métadonnées. Finalement, les enregistrements avec les mêmes balises fusionnent ou créent une relation dans le graphique.

Cette technique sophistiquée de fusion de données constitue une base pour les solutions pilotées par les données. CluedIn Data Fabric intègre les données dans un pipeline qui nettoie, prépare, modélise, régit, enrichit, déduplique et catalogue les données afin de les rendre facilement disponibles et accessibles pour les utilisations professionnelles.

CluedIn fournit aux entreprises des métriques sur la qualité des données qu’il ingère, en détectant intelligemment les données sale et en les préparant à être nettoyées par les ingénieurs données et les gestionnaires de données. Les algorithmes d’apprentissage automatique de logique floue propriétaires aident les utilisateurs professionnels et les conservateurs à étiqueter les données et enseignent au système à identifier, corriger et prévenir les problèmes de qualité des données au fil du temps.

CluedIn inclut une gouvernance de niveau entreprise, pour vous assurer que vous pouvez utiliser vos données en toute sécurité et en toute confiance. CluedIn peut diffuser en continu des données nettoyées et régies directement vers des systèmes d’analyse tels que Power BI, Azure Databricks, Azure Synapse Analytics ou Azure Cognitive Services pour les rendre facilement accessibles au reste de l’entreprise. La prise en charge native de la mise à l’échelle automatique utilise la puissance d’Azure pour fournir un environnement évolutif pour les charges de travail de données les plus volumineuses.

Cas d’usage potentiels

Création d’une vue unique des données

La modélisation sémantique de CluedIn facilite la création d’une vue unique de vos données de référence par rapport aux approches traditionnelles. Les clients de CluedIn utilisent CluedIn pour créer une vue connectée, historique et de haute qualité de leurs données métier les plus critiques. CluedIn prend non seulement en charge la maîtrise des domaines maîtres classiques tels que Personnes, les entreprises, les fournisseurs et les produits, mais il prend en charge un nombre infini de domaines différents, ainsi que des domaines non structurés comme les fichiers, le courrier, les événements, etc. Si vous avez besoin d’un référentiel centralisé de données master propre, enrichies, régies, contrôlées de qualité et catalogisées, CluedIn est adapté à vos cas d’usage.

Une infrastructure de données

CluedIn est un fournisseur cool de Gartner en 2020, en raison de sa capacité à orchestrer des données de plusieurs années 10, 100 et 1000 de sources de données différentes et complexes dans un hub de données unifié. Si vous avez besoin d’extraire facilement des données de nombreuses sources de données différentes, CluedIn peut être utilisé comme structure de données pour y parvenir. Cela peut fournir une infrastructure de diffusion en continu pour vos données qui peut également propre et master de manière proactive les données à mesure qu’elles circulent vers les consommateurs en aval.

Fusion et liaison sophistiquées de données master

L’approche unique de modélisation des données de CluedIn utilise une base de données de graphe, ce qui permet de fusionner et de lier des données complexes avec simplicité. Contrairement aux approches traditionnelles, pour résoudre ce problème, CluedIn ajoute davantage d’analytique de graphe et d’apprentissage automatique pour fusionner, mettre en correspondance et lier des enregistrements avec une précision élevée.

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework, qui est un ensemble de principes directeurs qui peuvent être utilisés pour améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Microsoft Azure Well-Architected Framework.

Fiabilité

La fiabilité garantit que votre application peut respecter les engagements que vous prenez envers vos clients. Pour plus d’informations, consultez Vue d’ensemble du pilier de fiabilité.

CluedIn prend des sauvegardes de base de données quotidiennes automatiques et les conserve dans un stockage à long terme pendant 30 jours par défaut. L’ensemble de la plateforme repose sur des piles redondantes et tolérantes aux pannes qui gèrent les sauvegardes pour tous les sous-systèmes. Les systèmes de surveillance 24 heures veillent à ce que les services soient aussi détainés que possible. CluedIn suit les pratiques standard du secteur en matière de redondance de l’infrastructure.
CluedIn expose et stocke uniquement une représentation de vos données, et non la version d’origine. Si CluedIn détecte une intrusion destructrice des données, il peut effacer temporairement les données CluedIn de vos serveurs. Une fois que l’intrusion s’est calmée, CluedIn récupère les données pour revenir à leur état d’origine.
Tous les magasins de données s’exécutent en mode haute disponibilité.

Évolutivité

CluedIn s’exécute dans des conteneurs Docker et utilise Kubernetes pour héberger et orchestrer les différentes parties de l’application. Cette architecture signifie que CluedIn fonctionne bien dans les environnements élastiques et peut automatiquement s’adapter aux tailles et à l’infrastructure nécessaires.
La prise en charge native de la mise à l’échelle automatique applique la puissance d’Azure pour fournir un environnement évolutif pour les charges de travail de données les plus volumineuses.
La modélisation de graphe sans schéma déduit automatiquement un modèle de données à partir des données sources. Les nouvelles sources de données se connectent automatiquement à toutes les autres sources de données, au lieu d’être explicitement intégrées. Le nombre de sources de données peut être mis à l’échelle à l’infini sans augmenter la complexité de l’intégration.

Sécurité

La sécurité fournit des garanties contre les attaques délibérées et l’abus de vos données et systèmes précieux. Pour plus d’informations, consultez Vue d’ensemble du pilier de sécurité.

La sécurité CluedIn accorde des autorisations et contrôle l’accès à différents services via Azure RBAC, avec le contrôle de clé de sécurité Azure Key Vault et le suivi et la journalisation des accès Azure Monitor.
En plus des comptes d’utilisateur authentifiés, CluedIn prend également en charge l’authentification unique (SSO) et les infrastructures d’identité. Les demandes adressées à l’application CluedIn utilisent des jetons d’accès chiffrés qui n’ont aucune corrélation avec l’identité de l’utilisateur.
CluedIn gère les représentations de données stockées derrière plusieurs couches de pare-feu et de proxy, et les authentifie avec un ensemble de clés uniques.
CluedIn stocke toutes les données sources avec un chiffrement AES 256 bits, qui est plus fort ou égal au niveau de chiffrement des sources de données prises en charge.
La limitation et la prévention CSRF protègent l’accès aux données.

DevOps

CluedIn utilise des pipelines d’intégration continue et de livraison continue (CI/CD) Azure Pipelines pour gérer les déploiements et les mises à jour propagées dans l’environnement AKS.
CluedIn prend en charge les tests unitaires, d’intégration et fonctionnels pour s’assurer que les données se transforment comme prévu. Les pipelines de traitement virtualisés peuvent s’exécuter en mémoire pour les tests de bac à sable. Les assertions de niveau production peuvent aider à déboguer et à suivre les problèmes de données.
Pour les environnements de test et de production, CluedIn fournit un graphique du gestionnaire de package Helm pour installer CluedIn rapidement dans un cluster Kubernetes. Les processus de déploiement de données entièrement scriptés prennent en charge la configuration, le test et le déploiement.

Optimisation des coûts

L’optimisation des coûts consiste à rechercher des moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.

La tarification de CluedIn est ouverte et transparente. Vous pouvez voir les tarifs sur leur site web.

Dimensionnement et démarrage d’une version d’évaluation d’Azure

Vous pouvez démarrer un essai de 7 jours de CluedIn sur leur site web, ce qui peut également vous aider à étendre vos coûts d’hébergement Azure avec des estimations Azure prédéfinies pour des environnements de différentes tailles.

Déployer ce scénario

Pour déployer CluedIn à des fins de développement et d’évaluation à l’aide de Docker, consultez CluedIn avec Docker.
Pour installer Rapidement CluedIn dans un cluster Kubernetes, consultez CluedIn avec Kubernetes. Le graphique Helm installe le serveur CluedIn, le site web et d’autres services requis, tels que le stockage et les files d’attente.

Étapes suivantes

Pour plus d’informations sur CluedIn, consultez le site web CluedIn.
Pour obtenir la documentation CluedIn, consultez la documentation CluedIn.

Partager via