Bonnes pratiques de gouvernance des données et de l’IA
Cet article traite des meilleures pratiques de gouvernance des données et de l’IA, organisées par des principes architecturaux répertoriés dans les sections suivantes.
1. Unifier la gestion des données et de l’IA
Établir un processus de gouvernance des données et de l’IA
La gouvernance des données et de l’IA concerne la gestion de la disponibilité, de la facilité d’utilisation, de l’intégrité et de la sécurité des données et des ressources IA d’une organisation. En renforçant la gouvernance des données et de l’IA, les organisations peuvent garantir la qualité des ressources essentielles pour une analyse et une prise de décision précises, aider à identifier de nouvelles opportunités, améliorer la satisfaction des clients et, en fin de compte, augmenter les revenus. Elle aide les organisations à se conformer aux réglementations relatives à la confidentialité des données et à l’IA et à améliorer les mesures de sécurité, ce qui réduit le risque de violations des données et de pénalités. Une gouvernance efficace des données élimine également les redondances et simplifie la gestion des données, ce qui permet d’économiser des coûts et d’accroître l’efficacité opérationnelle.
Une organisation peut choisir le modèle de gouvernance qui lui convient le mieux :
- Dans le modèle de gouvernance centralisée, vos administrateurs de gouvernance sont propriétaires du metastore et peuvent prendre possession de n’importe quel objet, et accorder et révoquer des autorisations.
- Dans un modèle de gouvernance distribuée, le catalogue ou un ensemble de catalogues est le domaine de données. Le propriétaire de ce catalogue peut créer et posséder toutes les ressources et gérer la gouvernance au sein de ce domaine. Les propriétaires d’un domaine donné peuvent fonctionner indépendamment des propriétaires d’autres domaines.
Unity Catalog, la solution de gouvernance des données et de l’IA, est intégrée à la plateforme de Data Intelligence de Databricks. Elle prend en charge les deux modèles de gouvernance et permet de gérer en toute transparence des données structurées et non structurées, des modèles de Machine Learning, des notebooks, des tableaux de bord et des fichiers sur n’importe quel cloud ou plateforme. Les meilleures pratiques de Unity Catalog aider à mettre en place une gouvernance des données et de l’IA.
Gérer les métadonnées de toutes les ressources de données et de l’IA en un seul endroit
La gestion des métadonnées pour toutes les ressources en un seul endroit présente les mêmes avantages que la tenue d’une source unique de vérité pour toutes vos données. Il s’agit notamment de réduire la redondance des données, d’améliorer l’intégrité des données et d’éliminer les malentendus dus à des définitions ou à des taxonomies différentes. Il est également plus facile d’implémenter des stratégies globales, des normes et des règles à partir d’une source unique.
En guise de meilleure pratique, exécutez la lakehouse dans un seul compte à l’aide d’un Unity Catalog. Le Unity Catalog peut gérer des données et des volumes (fichiers arbitraires), ainsi que des ressources IA telles que des fonctionnalités et des modèles d’IA. Un metastore est le conteneur de niveau supérieur des objets dans Unity Catalog. Il stocke les ressources de données (comme les tables et les vues) et les autorisations qui gouvernent leur accès. Utilisez un metastore unique par région cloud et n’accédez pas aux metastores entre les régions pour éviter les problèmes de latence.
Le metastore fournit un espace de noms à trois niveaux pour structurer les données, les volumes et les ressources d’IA :
Databricks recommande d’utiliser des catalogues pour assurer la séparation dans l’architecture des informations de votre organisation. Cela signifie souvent que les catalogues peuvent correspondre à l’étendue, à l’équipe ou à l’unité commerciale de l’environnement de développement logiciel.
Suivre la traçabilité des données et de l’IA pour favoriser la visibilité des données
La traçabilité des données est un outil puissant qui permet aux responsables des données d’avoir une meilleure visibilité et une meilleure compréhension des données de leur organisation. La traçabilité des données décrit la transformation et l’affinement des données de la source à l’insight. Elle inclut la capture de toutes les métadonnées et événements pertinents associés aux données tout au long du cycle de vie, notamment la source du jeu de données, les autres jeux de données utilisés pour le créer, qui l’a créé et quand, quelles transformations ont été effectuées, quels autres jeux de données l’utilisent, ainsi que de nombreux autres événements et attributs.
Par ailleurs, quand vous entraînez un modèle sur une table dans Unity Catalog, vous pouvez suivre la traçabilité du modèle vers le ou les jeux de données en amont sur lesquels il a été entraîné et évalué.
La traçabilité peut être utilisée pour de nombreux cas d’usage liés aux données :
- Conformité et préparation à l’audit: la traçabilité des données aide les organisations à suivre la source des tables et des champs. Ceci est important pour répondre aux exigences de nombreuses réglementations de conformité, telles que le Règlement général sur la protection des données (RGPD), la California Consumer Privacy Act (CCPA), health Insurance Portability and Accountability Act (HIPAA), Bâle Committee on Banking Supervision (BCBS) 239 et Sarbanes-Oxley Act (SOX).
- Analyse d’impact/gestion des changements : les données subissent plusieurs transformations depuis la source jusqu’à la table finale prête pour l’activité commerciale. Comprendre l’impact potentiel des modifications apportées aux données sur les utilisateurs en aval devient crucial du point de vue de la gestion des risques. Cet impact peut être facilement déterminé grâce à la traçabilité des données capturée par Unity Catalog.
- Assurance qualité des données : Comprendre l'origine d'un ensemble de données et les transformations qui lui ont été appliquées offre un contexte beaucoup plus riche aux data scientists et aux analystes, leur permettant d'obtenir des informations plus précises et pertinentes.
- Débogage et diagnostics : En cas de résultat inattendu, la généalogie des données aide les équipes de données à effectuer une analyse de la cause première en remontant l'erreur à sa source. Cela réduit considérablement le temps de résolution des problèmes.
Unity Catalog capture la traçabilité des données dans les requêtes exécutées sur Azure Databricks, ainsi que la traçabilité des modèles. La traçabilité est prise en charge pour toutes les langues et est capturée au niveau de la colonne. Les données de traçabilité incluent les notebooks, les travaux et les tableaux de bord liés à la requête. La traçabilité peut être visualisée dans Catalog Explorer en quasi-temps réel et est accessible à l’aide de l’API REST de la traçabilité des données de Databricks.
Ajouter des descriptions cohérentes à vos métadonnées
Les descriptions fournissent un contexte essentiel pour les données. Elles aident les utilisateurs à comprendre le but et le contenu des tables et colonnes de données. Cette clarté leur permet de découvrir, d’identifier et de filtrer plus facilement les données dont ils ont besoin, ce qui est essentiel pour l’analyse efficace des données et la prise de décision. Les descriptions peuvent inclure les informations de confidentialité et de conformité des données. Cela permet aux organisations de respecter les exigences légales et réglementaires en matière de confidentialité et de sécurité des données. Les descriptions doivent également inclure des informations sur la source, la précision et la pertinence des données. Cela permet de garantir l’intégrité des données et de promouvoir une meilleure collaboration entre les équipes.
Deux principales fonctionnalités de Unity Catalog prennent en charge la description des tables et des colonnes. Unity Catalog permet ce qui suit :
Ajouter des commentaires aux tables et colonnes sous la forme de commentaires.
Vous pouvez également ajouter un commentaire généré par l’IA pour n’importe quelle table ou colonne de table gérée par Unity Catalog afin d’accélérer le processus. Cependant, les modèles d’IA ne sont pas toujours exacts et les commentaires doivent être relus avant d’être enregistrés. Databricks recommande vivement une évaluation humaine des commentaires générés par l’IA pour rechercher les inexactitudes.
Ajouter des balises à n’importe quel élément sécurisable dans Unity Catalog. Les balises sont des attributs contenant des clés et des valeurs facultatives que vous pouvez appliquer à différents objets sécurisables dans Unity Catalog. Le balisage est utile pour organiser et catégoriser différents objets sécurisables au sein d'un métastore. L’utilisation de balises facilite également la recherche et la découverte de vos ressources de données.
Autoriser la découverte de données facile pour les consommateurs de données
La découverte facile des données permet aux data scientists, aux analystes de données et aux ingénieurs de données de découvrir et de référencer rapidement des données pertinentes, accélérant ainsi le temps de création de valeur.
Databricks Catalog Explorer offre une interface utilisateur permettant d’explorer et de gérer les données, les schémas (bases de données), les tables, les autorisations, les propriétaires de données, les emplacements externes et les informations d’identification. De plus, vous pouvez utiliser l’onglet « Insights » dans Catalog Explorer pour visualiser les requêtes les plus fréquentes récemment effectuées et les utilisateurs de n’importe quelle table enregistrée dans Unity Catalog.
Régir les ressources IA avec les données
La relation entre la gouvernance des données et l’intelligence artificielle (IA) est devenue essentielle à la réussite. La façon dont les organisations gèrent, sécurisent et utilisent les données a un impact direct sur les résultats et les considérations des implémentations d’IA : vous ne pouvez pas avoir d’IA sans données de qualité et vous ne pouvez pas avoir de données de qualité sans gouvernance des données.
La gouvernance des données et de l’IA améliore les performances de l’IA en garantissant un accès transparent aux données de haute qualité et à jour, ce qui permet une meilleure précision et une meilleure prise de décision. La suppression des silos accroît l’efficacité en permettant une meilleure collaboration et en rationalisant les flux de travail, ce qui augmente la productivité et réduit les coûts.
Un autre avantage est une sécurité améliorée des données, car une approche de gouvernance unifiée établit des pratiques de gestion des données cohérentes, ce qui réduit les vulnérabilités et améliore la capacité d’une organisation à protéger les informations sensibles. La conformité aux réglementations en matière de confidentialité des données est plus facile à gérer lorsque les données et la gouvernance de l’IA sont intégrées, car la gestion des données et les processus IA sont alignés sur les exigences réglementaires.
Globalement, une approche de gouvernance unifiée favorise la confiance entre les parties prenantes et garantit la transparence dans les processus décisionnels d’IA en établissant des stratégies et procédures claires pour les données et l’IA.
Sur la plateforme Databricks Data Intelligence, Unity Catalog est le composant central pour régir les ressources de données et d’IA :
Fonctionnalité dans Unity Catalog
Dans les espaces de travail compatibles avec Unity Catalog, les scientifiques des données peuvent créer des tables de fonctionnalités dans Unity Catalog. Ces tables de fonctionnalités dans Unity Catalog sont des tables Delta ou Delta Live Tables gérées par Unity Catalog.
-
Dans Unity Catalog, Models étend les avantages de Unity Catalog aux modèles ML, notamment le contrôle d’accès centralisé, l’audit, la traçabilité et la découverte de modèles dans les espaces de travail. Les principales fonctionnalités des modèles dans Unity Catalog incluent la gouvernance pour les modèles, la traçabilité chronologique des modèles, le contrôle de version des modèles et le déploiement de modèles via des alias.
2. Unifier la sécurité des données et de l’IA
Centraliser le contrôle d’accès pour toutes les ressources de données et d’IA
La centralisation du contrôle d’accès pour toutes les ressources de données est importante, car elle simplifie la sécurité et la gouvernance de vos ressources de données et d’IA en fournissant un emplacement central pour administrer et auditer l’accès à ces ressources. Cette approche permet de gérer plus efficacement l’accès aux données et aux objets IA, en veillant à ce que les exigences opérationnelles relatives à la séparation des droits soient appliquées, ce qui est essentiel pour la conformité réglementaire et la prévention des risques.
La plateforme Databricks Data Intelligence fournit des méthodes de contrôle d’accès aux données qui décrivent les groupes ou les personnes qui peuvent accéder aux données. Il s’agit d’instructions de politique qui peuvent être extrêmement granulaires et spécifiques, jusqu’aux définitions de chaque enregistrement auquel chaque individu a accès. Ou elles peuvent être très expressives et larges, par exemple, tous les utilisateurs du domaine financier peuvent voir l’ensemble des données financières.
Unity Catalog centralise les contrôles d’accès pour tous les objets sécurisables pris en charge tels que les tables, les fichiers, les modèles, etc. Chaque objet sécurisable dans Unity Catalog a un propriétaire. Le propriétaire d’un objet possède tous les privilèges sur cet objet, ainsi que la possibilité de concéder des privilèges sur l’objet sécurisable à d’autres principaux. Unity Catalog vous permet de gérer les privilèges et de configurer le contrôle d’accès en utilisant des instructions SQL DDL.
Unity Catalog utilise des filtres de lignes et masques de colonne pour un contrôle d’accès affiné. Les filtres de lignes vous permettent d’appliquer un filtre à une table afin que les requêtes suivantes retournent uniquement les lignes pour lesquelles le prédicat de filtre est évalué comme « true ». Les masques de colonne vous permettent d’appliquer une fonction de masquage à une colonne de table. La fonction de masquage est évaluée au moment de l’exécution de la requête, en remplaçant chaque référence de la colonne cible par les résultats de la fonction de masquage.
Pour plus d’informations, consultez Sécurité, conformité et confidentialité – Gérer l’identité et l’accès à l’aide de privilèges minimum.
Configurer l’enregistrement d’audit
L’enregistrement d’audit est important, car il fournit un compte détaillé des activités système (actions utilisateur, modifications apportées aux paramètres, et ainsi de suite) susceptibles d’affecter l’intégrité du système. Bien que les journaux système standard soient conçus pour aider les développeurs à résoudre des problèmes, les journaux d’audit fournissent un enregistrement historique de l’activité à des fins de conformité et d’application de la politique de l’entreprise. La tenue de journaux d’audit robustes peut aider à identifier et à garantir la préparation face aux menaces, aux violations, à la fraude et à d’autres problèmes de système.
Databricks permet d’accéder aux journaux d’audit des activités effectuées par les utilisateurs Databricks, ce qui permet à votre organisation de surveiller les modèles d’utilisation détaillés de Databricks. Il existe deux types de journaux : les journaux d’audit au niveau de l’espace de travail contenant des événements au niveau de l’espace de travail, et les journaux d’audit au niveau du compte contenant des événements au niveau du compte.
Vous pouvez également activer les journaux d’audit détaillés, qui sont des journaux d’audit supplémentaires enregistrés chaque fois qu’une requête ou une commande est exécutée dans votre espace de travail.
Auditer les événements de la plateforme de données
L’enregistrement d’audit est important, car elle fournit un compte détaillé des activités système. La plateforme Data Intelligence a des journaux d’audit pour l’accès aux métadonnées (par conséquent, l’accès aux données) et le partage de données :
- Unity Catalog capture un journal d'audit des actions effectuées sur le metastore. Cela permet aux administrateurs d’accéder aux détails affinés sur ceux qui ont accédé à un jeu de données donné et aux actions qu’ils ont effectuées.
- Pour un partage sécurisé avec Delta Sharing, Azure Databricks fournit des journaux d'audit pour surveiller les événements Delta Sharing, notamment :
- Lorsque quelqu'un crée, modifie, met à jour ou supprime un partage ou un destinataire.
- When a recipient accesses an activation link and downloads the credential.
- Lorsqu'un destinataire accède à des partages ou à des données dans des tables partagées.
- Lorsque les informations d’identification d’un destinataire sont pivotées ou expirent.
3. Établir des normes de qualité des données
La plateforme Databricks Data Intelligence offre une gestion robuste de la qualité des données avec des fonctionnalités intégrées de contrôle, de test, de surveillance et de contrainte pour garantir la disponibilité de données précises et utiles pour des charges de travail en aval, comme le décisionnel, l’analyse et le Machine Learning.
Les détails de l’implémentation peuvent être consultés dans Fiabilité – Gérer la qualité des données.
Définir des normes claires de qualité des données
La définition de normes claires et exploitables de qualité des données est essentielle, car elle permet de garantir que les données utilisées pour l’analyse, la création de rapports et la prise de décision sont fiables. Le fait de documenter ces normes permet de s’assurer qu’elles sont respectées. Les normes de qualité des données doivent être basées sur les besoins spécifiques de l’entreprise et porter sur des aspects de la qualité des données tels que l’exactitude, l’exhaustivité, la cohérence, l’actualité et la fiabilité :
- Exactitude : assurez-vous que les données reflètent avec précision les valeurs réelles.
- Exhaustivité : toutes les données nécessaires doivent être capturées et aucune donnée critique ne doit être manquante.
- Cohérence : les données de tous les systèmes doivent être cohérentes et ne pas contredire d’autres données.
- Actualité : les données doivent être mises à jour et disponibles en temps opportun.
- Fiabilité : les données doivent être obtenues et traitées de manière à garantir leur fiabilité.
Utiliser des outils de qualité des données pour le profilage, le nettoyage, la validation et la surveillance des données
Exploitez des outils de qualité des données pour le profilage, le nettoyage, la validation et la surveillance des données. Ces outils aident à automatiser les processus de détection et de correction des problèmes de qualité des données, ce qui est essentiel pour étendre les initiatives de qualité des données à de vastes ensembles de données typiques des lacs de données.
Pour les équipes utilisant DLT, vous pouvez utiliser les attentes pour définir les contraintes de qualité des données sur le contenu d’un jeu de données. Les attentes vous permettent de garantir que les données arrivant dans des tables répondent aux exigences de qualité des données et fournissent des insights sur la qualité des données pour chaque mise à jour de pipeline.
Implémenter et appliquer des formats et définitions de données standardisés
Les formats et définitions de données standardisés permettent d’obtenir une représentation cohérente des données sur tous les systèmes afin de faciliter l’intégration et l’analyse des données, de réduire les coûts et d’améliorer la prise de décision en améliorant la communication et la collaboration entre les équipes et les services. Cela permet également de fournir une structure permettant de créer et de maintenir la qualité des données.
Développez et appliquez un dictionnaire de données standard qui inclut des définitions, des formats et des valeurs acceptables pour tous les éléments de données utilisés dans l’organisation.
Utilisez des conventions d’affectation de noms cohérentes, des formats de date et des unités de mesure dans toutes les bases de données et applications pour éviter les incohérences et la confusion.