Tutoriel : Enregistrer des éléments de données dans Azure Data Catalog
Important
Azure Data Catalog a été mis hors service le 15 mai 2024.
Pour les fonctionnalités du catalogue de données, utilisez le service Microsoft Purview, qui offre une gouvernance unifiée des données pour l’ensemble de votre patrimoine de données.
Dans ce tutoriel, vous utilisez l’outil de référencement pour inscrire des ressources de données de l’exemple de base de données avec le catalogue. L’inscription est le processus par lequel les métadonnées structurelles clés (telles que les noms, les types et les emplacements) sont extraites de la source de données et des ressources qu’elle contient, puis copiées dans le catalogue. La source de données et les ressources de données restent au même endroit, mais les métadonnées sont utilisées par le catalogue pour faciliter leur découverte et leur compréhension.
Dans ce tutoriel, vous allez apprendre à :
- Inscrire des ressources de données
- Rechercher des ressources de données
- Annoter les ressources de données
- Se connecter aux ressources de données
- Gérer les ressources de données
- Supprimer des ressources de données
Prérequis
- Un abonnement Microsoft Azure.
- Vous devez disposer de votre propre client Microsoft Entra.
- Un Azure Data Catalog
Pour configurer Data Catalog, vous devez être le propriétaire ou le copropriétaire d’un abonnement Azure.
Inscrire des ressources de données
Référencer une source de données
Dans cet exemple, nous inscrirons des ressources de données (tableaux) d’un exemple de base de données pour Azure SQL Database. Vous pouvez cependant utiliser n’importe quelle source de données prise en charge si vous préférez travailler avec des données plus familières et mieux adaptées à votre rôle. Pour obtenir la liste des sources de données prises en charge, consultez Sources de données prises en charge.
Le nom de la base de données que nous utilisons dans ce tutoriel est RLSTest.
Vous pouvez désormais inscrire des ressources de données de l’exemple de base de données à l’aide d’Azure Data Catalog.
Accédez à la page d’accueil Azure Data Catalog, puis sélectionnez Publier des données.
Sélectionnez Lancer l’application pour télécharger, installer et exécuter l’outil de référencement sur votre ordinateur.
Dans la page Bienvenue, sélectionnez Se connecter, puis entrez vos informations d’identification.
Dans la page Microsoft Azure Data Catalog, sélectionnez SQL Server, puis Suivant.
Entrez les propriétés de connexion SQL Server pour votre exemple de base de données dans Azure SQL Database, puis sélectionnez SE CONNECTER.
Enregistrez les métadonnées de votre ressource de données. Dans cet exemple, vous inscrivez les objets Product à partir de l’exemple d’espace de noms :
Dans l’arborescence Hiérarchie du serveur, développez votre exemple de base de données, puis sélectionnez SalesLT.
Appuyez sur la touche CTRL, puis sélectionnez Product, ProductCategory, ProductDescription et ProductModel.
Sélectionnez la flèche de déplacement de la sélection (>). Cette action déplace tous les objets sélectionnés dans la liste Objets à inscrire .
Sélectionnez Include a Preview (Inclure un aperçu) pour inclure un aperçu instantané des données. L’instantané inclut jusqu’à 20 enregistrements de chaque table et est copié dans le catalogue.
Sélectionnez Inclure le profil de données pour inclure un instantané des statistiques des objets du profil de données (par exemple, les valeurs minimale, maximale et moyenne d’une colonne ou le nombre de lignes).
Dans le champ Ajouter des étiquettes, entrez sales, product, azure sql. Cette action ajoute des étiquettes de recherche à ces ressources de données. Les étiquettes sont un excellent moyen d’aider les utilisateurs à trouver une source de données inscrite.
Spécifiez le nom d’un expert pour ces données (facultatif).
Sélectionnez S’INSCRIRE. Azure Data Catalog enregistre les objets que vous avez sélectionnés. Dans cet exercice, les objets sélectionnés dans votre exemple de base de données sont inscrits. L’outil de référencement extrait les métadonnées de la ressource de données et les copie dans le service Azure Data Catalog. Les données restent où elles se trouvent actuellement. Les données restent sous le contrôle des administrateurs et des stratégies du système d’origine.
Pour voir les objets sources de données que vous avez inscrits, sélectionnez Afficher le portail. Dans le portail Azure Data Catalog, vérifiez que les quatre tables et la base de données sont affichées en mode Grille (la barre de recherche doit être vide).
Dans cet exercice, vous avez inscrit des objets de l’exemple de base de données pour Azure SQL Database afin que les utilisateurs de votre organisation puissent les découvrir facilement.
Dans l’exercice suivant, vous apprenez à découvrir les ressources de données inscrites.
Découvrir les ressources de données
Dans Azure Data Catalog, la découverte utilise deux mécanismes principaux : la recherche et le filtrage.
La recherche est conçue pour être intuitive et puissante. Par défaut, les termes de recherche sont comparés à toutes les propriétés du catalogue, notamment aux annotations fournies par l’utilisateur.
Le filtrage est conçu pour compléter la recherche. Vous pouvez sélectionner des caractéristiques spécifiques telles que les experts, le type de source de données, le type d’objet et les balises, pour afficher les ressources de données correspondantes et pour limiter les résultats de la recherche aux ressources correspondantes.
En combinant la recherche et le filtrage, vous pouvez parcourir rapidement les sources de données qui sont inscrites auprès d’Azure Data Catalog.
Dans cet exercice, vous utilisez le portail Azure Data Catalog pour découvrir les ressources de données que vous avez enregistrées dans l’exercice précédent. Pour plus d’informations sur la syntaxe de recherche, consultez l’article Data Catalog Search syntax reference (Informations de référence sur la syntaxe de recherche dans Data Catalog) .
Voici quelques exemples de découverte des ressources de données dans le catalogue.
Découvrir les ressources de données à l’aide de la fonction de recherche de base
La recherche de base vous permet d’effectuer des recherches dans le catalogue en utilisant un ou plusieurs termes de recherche. Les résultats sont toutes les ressources correspondant à une propriété quelconque avec un ou plusieurs termes spécifiés.
Sélectionnez Accueil dans le portail Azure Data Catalog. Si vous avez fermé le navigateur web, accédez à la page d’accueil Azure Data Catalog.
Dans la zone de recherche, entrez
product
et appuyez sur ENTRÉE.Vérifiez que les quatre tables et la base de données s’affichent dans les résultats. Vous pouvez basculer entre le mode Grille et le mode Liste en sélectionnant les boutons de la barre d’outils, comme l’illustre l’image suivante. Le mot clé de recherche est mis en surbrillance dans les résultats de recherche, car l’option Mettre en surbrillance est ACTIVÉE. Vous pouvez également spécifier le nombre de résultats par page dans les résultats de recherche.
Le panneau Recherches et le panneau Propriétés s’affichent respectivement à gauche et à droite. Le panneau Recherches vous permet de modifier les critères de recherche et de filtrer les résultats. Le panneau Propriétés affiche les propriétés d’un objet sélectionné dans la grille ou liste.
Sélectionnez Product dans les résultats de la recherche. Sélectionnez les onglets Aperçu, Colonnes, Profil de données et Documentation, ou sélectionnez la flèche pour développer le volet inférieur.
L’aperçu des données de la table Product s’affiche dans l’onglet Aperçu.
Sélectionnez l’onglet Colonnes pour rechercher des informations sur les colonnes (comme le nom et le type de données) dans la ressource de données.
Sélectionnez l’onglet Profil de données pour voir le profilage des données (par exemple, le nombre de lignes, la taille des données ou la valeur minimale dans une colonne) dans la ressource de données.
Découvrir les ressources de données à l’aide de la fonction de recherche d’étendue de la propriété
L’étendue de la propriété vous permet de découvrir les ressources de données dans lesquelles le terme recherché correspond à la propriété spécifiée.
Désactivez le filtre Table sous Type d’objet dans Filtres.
Dans la zone de recherche, entrez
tags:product
et appuyez sur ENTRÉE. Consultez l’article Data Catalog Search syntax reference (Informations de référence sur la syntaxe de recherche dans Data Catalog) pour connaître toutes les propriétés que vous pouvez utiliser pour effectuer des recherches dans le catalogue de données.Vérifiez que les tables et la base de données s’affichent dans les résultats.
Enregistrer la recherche
Dans le volet Recherches de la section Recherche actuelle, entrez un nom pour la recherche, puis sélectionnez Enregistrer.
Vérifiez que la recherche enregistrée s’affiche sous Recherches enregistrées.
Sélectionnez l’une des actions que vous pouvez effectuer sur la recherche enregistrée (Renommer, Supprimer, Définir comme recherche par défaut).
Parenthèses de regroupement
Les parenthèses de regroupement vous permettent de grouper les parties de la requête à isoler logiquement, notamment avec des opérateurs booléens.
Dans la zone de recherche, entrez
name:product AND (tags:product AND objectType:table)
et appuyez sur ENTRÉE.Vérifiez que seule la table Product s’affiche dans les résultats de la recherche.
Opérateurs de comparaison
Les opérateurs de comparaison vous permettent d’utiliser des comparaisons autres que l’égalité pour les propriétés comportant des types de données numériques et de date.
Dans la zone de recherche, entrez
lastRegisteredTime:>"06/09/2016"
.Désactivez le filtre Table sous Type d’objet.
Appuyez sur Entrée.
Vérifiez que les tables Product, ProductCategory et ProductDescription ainsi que la base de données SQL que vous avez inscrites s’affichent dans les résultats de la recherche.
Consultez Guide pratique pour découvrir les ressources de données pour obtenir des informations détaillées sur la découverte des ressources de données. Pour plus d’informations sur la syntaxe de recherche, consultez Informations de référence sur la syntaxe de recherche de Data Catalog.
Annoter les ressources de données
Dans cet exercice, vous utilisez le portail Azure Data Catalog pour annoter (ajouter des informations comme des descriptions, des mots clés ou des experts) des ressources de données existantes dans le catalogue. Les annotations complètent les métadonnées structurelles extraites de la source de données pendant l’inscription. Elles facilitent considérablement la découverte et la compréhension des ressources de données.
Dans cet exercice, vous annotez une ressource de données unique (ProductPhoto). Vous ajoutez un nom convivial et une description à la ressource de données ProductPhoto.
Accédez à la page d’accueil Azure Data Catalog et recherchez avec
tags:product
les ressources de données que vous avez inscrites.Sélectionnez ProductModel dans les résultats de la recherche.
Entrez Images de produit comme Nom convivial et Photos de produit pour les documents marketing comme Description.
La Description aide les autres utilisateurs à découvrir et à comprendre pourquoi et comment utiliser la ressource de données sélectionnée. Vous pouvez également ajouter des balises supplémentaires et afficher les colonnes. Vous pouvez rechercher et filtrer les ressources de données à l’aide des métadonnées descriptives que vous avez ajoutées au catalogue.
Vous pouvez également effectuer les étapes suivantes de cette page :
Ajouter des experts pour la ressource de données. Sélectionnez Ajouter dans la zone Experts.
Ajouter des balises au niveau du jeu de données. Sélectionnez Ajouter dans la zone Balises. Une balise peut être une balise utilisateur ou une balise glossaire. L’édition Standard de Data Catalog comprend un glossaire métier qui permet aux administrateurs de catalogue de définir une taxonomie commerciale centrale. Les utilisateurs du catalogue peuvent ensuite annoter les ressources de données avec la terminologie du glossaire. Pour plus d’informations, consultez l’article Comment configurer le glossaire métier pour un balisage géré
Ajouter des balises au niveau des colonnes. Sélectionnez Ajouter sous Balises pour la colonne que vous souhaitez annoter.
Ajouter une description au niveau des colonnes. Entrez une description pour une colonne. Vous pouvez également afficher les métadonnées de description extraites de la source de données.
Ajoutez des informations sur le champ Demander l’accès pour expliquer aux utilisateurs comment demander un accès à la ressource de données.
Sélectionnez l’onglet Documentation et fournissez une documentation pour la ressource de données. La documentation Azure Data Catalog vous permet d’utiliser votre catalogue de données comme référentiel de contenu pour créer une narration complète de vos ressources de données.
Vous pouvez également ajouter une annotation à plusieurs ressources de données. Par exemple, vous pouvez sélectionner toutes les ressources de données que vous avez inscrites et leur spécifier un expert.
Azure Data Catalog prend en charge une approche basée sur le crowdsourcing pour les annotations. Tous les utilisateurs de Data Catalog peuvent ajouter des balises (utilisateur ou de glossaire), des descriptions et d’autres métadonnées. Ainsi, les utilisateurs ajoutent une perspective sur une ressource de données et son utilisation, et la partagent avec d’autres utilisateurs.
Consultez l’article How to annotate data assets (Annotation des ressources de données) pour obtenir des informations détaillées sur l’annotation des ressources de données.
Se connecter aux ressources de données
Dans cet exercice, vous ouvrez les ressources de données dans un outil client intégré (Excel) et dans un outil non intégré (SQL Server Management Studio) à l’aide des informations de connexion.
Notes
Il est important de rappeler qu’Azure Data Catalog ne vous donne pas accès à la source de données elle-même : il vous permet simplement de découvrir et de comprendre plus facilement cette source de données. Lorsque vous vous connectez à une source de données, l’application cliente que vous choisissez utilise vos informations d’identification Windows ou vous invite, si nécessaire, à saisir vos informations d’identification. Si l’accès à la source de données ne vous a pas été préalablement accordé, vous devez obtenir cet accès avant de pouvoir vous connecter.
Se connecter à une ressource de données à partir d’Excel
Sélectionnez Produit dans les résultats de la recherche. Dans la barre d’outils, sélectionnez Ouvrir dans, puis Excel.
Sélectionnez Ouvrir dans la fenêtre contextuelle de téléchargement. Cette expérience peut varier en fonction du navigateur.
Dans la fenêtre Avis de sécurité Microsoft Excel, sélectionnez Activer.
Conservez les valeurs par défaut dans la boîte de dialogue Importer des données, puis sélectionnez OK.
La source de données s’affiche dans Excel.
SQL Server Management Studio
Dans cet exercice, vous vous êtes connecté aux ressources de données découvertes à l’aide d’Azure Data Catalog. Le portail Azure Data Catalog vous permet de vous connecter directement à l’aide d’applications clientes intégrées au menu Ouvrir dans . Vous pouvez également vous connecter avec l’application de votre choix en utilisant les informations d’emplacement de connexion incluses dans les métadonnées des ressources. Par exemple, vous pouvez utiliser SQL Server Management Studio pour vous connecter à Azure SQL Database afin d’accéder aux données des ressources de données inscrites dans ce tutoriel.
Ouvrez SQL Server Management Studio.
Dans la boîte de dialogue Se connecter au serveur, entrez le nom du serveur dans le volet Propriétés du portail Azure Data Catalog.
Utilisez l’authentification et les informations d’identification appropriées pour accéder à la ressource de données. Si vous n’avez pas accès à la ressource, utilisez les informations du champ Demander l’accès pour l’obtenir.
Sélectionnez Afficher les chaînes de connexion pour afficher et copier les chaînes de connexion ADO.NET, ODBC et OLEDB dans le Presse-papiers pour les utiliser dans votre application.
Gérer les ressources de données
Dans cette étape, vous apprenez à configurer la sécurité de vos ressources de données. Data Catalog ne permet pas aux utilisateurs d’accéder aux données proprement dites. Le propriétaire de la source de données contrôle l’accès aux données.
Data Catalog vous permet de découvrir les sources de données et d’afficher les métadonnées relatives aux sources inscrites dans le catalogue. Il peut arriver, cependant, que seuls certains utilisateurs ou groupes soient autorisés à accéder à une source de données. Pour ces scénarios, vous pouvez utiliser Data Catalog pour vous approprier les ressources de données inscrites et contrôler la visibilité des ressources que vous détenez.
Notes
Les fonctionnalités de gestion décrites dans cet exercice sont disponibles uniquement dans l’édition Standard d’Azure Data Catalog, et non dans l’édition gratuite. Dans Azure Data Catalog, vous pouvez vous approprier des ressources de données, ajouter des copropriétaires aux ressources de données et définir la visibilité de ces ressources.
S’approprier les ressources de données et restreindre leur visibilité
Accédez à la page d’accueil Azure Data Catalog. Dans la zone de texte Recherche, entrez
tags:cycles
et appuyez sur ENTRÉE.Sélectionnez un élément dans la liste des résultats, puis Appropriation dans la barre d’outils.
Dans la section Gestion du panneau Propriétés, sélectionnez Appropriation.
Pour restreindre la visibilité, choisissez Propriétaires et ces utilisateurs dans la section Visibilité, puis sélectionnez Ajouter. Entrez les adresses de messagerie des utilisateurs dans la zone de texte et appuyez sur ENTRÉE.
Supprimer les ressources de données
Dans cet exercice, vous utilisez le portail Azure Data Catalog pour supprimer les aperçus de données des ressources de données inscrites et pour supprimer les ressources de données du catalogue.
Dans Azure Data Catalog, vous pouvez supprimer une ou plusieurs ressources.
Accédez à la page d’accueil Azure Data Catalog.
Dans la zone de texte Recherche, entrez
tags:cycles
, puis sélectionnez ENTRÉE.Sélectionnez un élément dans la liste des résultats, puis sélectionnez Supprimer dans la barre d’outils, comme illustré dans l’image suivante :
Si vous utilisez le mode Liste, la case à cocher se situe à gauche de l’élément, comme indiqué dans l’image suivante :
Vous pouvez également sélectionner et supprimer plusieurs ressources de données comme indiqué dans l’image suivante :
Notes
Par défaut, le catalogue permet aux utilisateurs d’inscrire n’importe quelle source de données et de supprimer toutes les ressources de données préalablement inscrites. Les fonctionnalités de gestion incluses dans l’édition Standard d’Azure Data Catalog offrent des options supplémentaires qui permettent l’appropriation de ressources, ce qui limite les fonctions de découverte et de suppression des ressources à certains utilisateurs.
Nettoyer les ressources
Procédez de la manière décrite dans Supprimer les ressources de données pour nettoyer les ressources que vous avez utilisées en suivant ce tutoriel.
Résumé
Dans ce didacticiel, vous avez exploré les fonctionnalités essentielles d’Azure Data Catalog, notamment l’inscription, l’annotation, la découverte et la gestion des ressources de données d’entreprise. Maintenant que vous avez terminé ce didacticiel, il est temps de passer à la pratique. Vous pouvez commencer dès aujourd’hui en enregistrant les sources de données que vous et votre équipe utilisez, et en invitant vos collègues à utiliser le catalogue.