Se connecter à des projets Google BigQuery et les gérer dans Microsoft Purview

Article
11/13/2024

Cet article explique comment inscrire des projets Google BigQuery et comment s’authentifier et interagir avec Google BigQuery dans Microsoft Purview. Pour plus d’informations sur Microsoft Purview, consultez l’article d’introduction.

Fonctionnalités prises en charge

Extraction de métadonnées	Analyse complète	Analyse incrémentielle	Analyse délimitée	Classification	Étiquetage	Stratégie d’accès	Traçabilité	Partage de données	Affichage en direct
Oui	Oui	Non	Oui	Non	Non	Non	Oui	Non	Non

Lors de l’analyse de la source Google BigQuery, Microsoft Purview prend en charge :

Extraction de métadonnées techniques, notamment :
- Projets
- Jeux de données
- Tables incluant les colonnes
- Affichages, y compris les colonnes
Extraction de la traçabilité statique sur les relations de ressources entre les tables et les vues.

Lors de la configuration de l’analyse, vous pouvez choisir d’analyser l’intégralité d’un projet Google BigQuery ou d’étendre l’analyse à un sous-ensemble de jeux de données correspondant au(s) nom(s) donné(s) ou modèle(s) de nom.

Limitations connues

Actuellement, Microsoft Purview prend uniquement en charge l’analyse des jeux de données Google BigQuery dans un emplacement multirégion aux États-Unis. Si le jeu de données spécifié se trouve à un autre emplacement, par exemple, us-east1 ou EU, vous observerez que l’analyse est terminée, mais qu’aucune valeur n’est affichée dans Microsoft Purview.
Lorsque l’objet est supprimé de la source de données, l’analyse suivante ne supprime pas automatiquement la ressource correspondante dans Microsoft Purview.

Configuration requise

Un compte Azure avec un abonnement actif. Créez un compte gratuitement.
Un compte Microsoft Purview actif.
Vous avez besoin des autorisations Administrateur de source de données et Lecteur de données pour inscrire une source et la gérer dans le portail de gouvernance Microsoft Purview. Pour plus d’informations sur les autorisations, consultez Contrôle d’accès dans Microsoft Purview.
Configurez le runtime d’intégration approprié pour votre scénario :
- Pour utiliser un runtime d’intégration auto-hébergé :
  - Suivez l’article pour créer et configurer un runtime d’intégration auto-hébergé.
  - Vérifiez que JDK 11 est installé sur l’ordinateur sur lequel le runtime d’intégration auto-hébergé est installé. Redémarrez la machine après avoir installé le JDK pour qu’il prenne effet.
  - Vérifiez que Visual C++ Redistributable (version Visual Studio 2012 Update 4 ou ultérieure) est installé sur l’ordinateur sur lequel le runtime d’intégration auto-hébergé est en cours d’exécution. Si cette mise à jour n’est pas installée, téléchargez-la maintenant.
  - Téléchargez et décompressez le pilote JDBC BigQuery sur l’ordinateur sur lequel votre runtime d’intégration auto-hébergé est en cours d’exécution. Notez le chemin du dossier que vous utiliserez pour configurer l’analyse.
- Pour utiliser un runtime d’intégration auto-hébergé pris en charge par Kubernetes :
  - Suivez l’article pour créer et configurer un runtime d’intégration pris en charge par Kubernetes.
  - Téléchargez et décompressez le pilote JDBC BigQuery sur l’ordinateur sur lequel votre runtime d’intégration auto-hébergé est en cours d’exécution. Notez le chemin du dossier que vous utiliserez pour configurer l’analyse.
Remarque

Le pilote doit être accessible par le runtime d’intégration auto-hébergé. Par défaut, le runtime d’intégration auto-hébergé utilise le compte de service local « NT SERVICE\DIAHostService ». Vérifiez qu’il dispose des autorisations « Lire et exécuter » et « Lister le contenu du dossier » sur le dossier du pilote.

Autorisations requises pour l’analyse

Le compte de service Google BigQuery que vous utilisez pour l’analyse doit avoir à la fois les rôles BigQuery Metadata Viewer et BigQuery Job User IAM sur le ou les projets que vous souhaitez analyser. Ces autorisations sont requises, car Microsoft Purview extrait les métadonnées en lisant les tables système de base de données Google BigQuery (par exemple, INFORMATION_SCHEMA). Et le pilote JDBC Google BigQuery sous-jacent crée un travail BigQuery lorsqu’il doit lire à partir de ces tables système.

Microsoft Purview utilise le protocole Oauth 2.0 pour accéder au service Google BigQuery. Configurez les informations d’identification en suivant les instructions de la section Créer et exécuter une analyse .

Inscrire

Cette section explique comment inscrire un projet Google BigQuery dans Microsoft Purview à l’aide du portail de gouvernance Microsoft Purview.

Étapes d’inscription

Ouvrez le portail de gouvernance Microsoft Purview en :
- Accédez directement à https://web.purview.azure.com votre compte Microsoft Purview et sélectionnez-les.
- Ouverture du Portail Azure, recherchez et sélectionnez le compte Microsoft Purview. Sélectionnez le bouton Portail de gouvernance Microsoft Purview .
Sélectionnez Data Map dans le volet de navigation de gauche.
Sélectionnez Inscrire.
Dans Inscrire des sources, sélectionnez Google BigQuery . Sélectionnez Continuer.

Dans l’écran Inscrire des sources (Google BigQuery), procédez comme suit :

Entrez un Nom indiquant que la source de données sera répertoriée dans le catalogue.
Entrez projectID. Il doit s’agir d’un ID de projet complet. Par exemple, mydomain.com :myProject
Sélectionnez une collection dans la liste.
Sélectionner Inscription.

Analyser

Suivez les étapes ci-dessous pour analyser un projet Google BigQuery afin d’identifier automatiquement les ressources. Pour plus d’informations sur l’analyse en général, consultez notre présentation des analyses et de l’ingestion.

Créer et exécuter une analyse

Dans le Centre de gestion, sélectionnez Runtimes d’intégration. Vérifiez qu’un runtime d’intégration auto-hébergé est configuré. S’il n’est pas configuré, suivez les étapes mentionnées dans Prérequis.
Accédez à Sources.
Sélectionnez le projet BigQuery inscrit.
Sélectionnez + Nouvelle analyse.
Fournissez les détails ci-dessous :
1. Nom : nom de l’analyse
2. Se connecter via le runtime d’intégration : sélectionnez le runtime d’intégration auto-hébergé configuré
3. Informations d’identification : lors de la configuration des informations d’identification BigQuery, veillez à :
  - Sélectionnez Authentification de base comme méthode d’authentification
  - Indiquez l’ID d’e-mail du compte de service dans le champ Nom d’utilisateur. Par exemple, xyz\@developer.gserviceaccount.com
  - Suivez les étapes ci-dessous pour générer la clé privée, copiez l’intégralité du fichier de clé JSON, puis stockez-le en tant que valeur d’un secret Key Vault.
  Pour créer une clé privée à partir de la plateforme cloud de Google :
  1. Dans le menu de navigation, sélectionnez IAM & Administration -> Comptes de service -> Sélectionner un projet ->
  2. Sélectionnez l’adresse e-mail du compte de service pour lequel vous souhaitez créer une clé.
  3. Sélectionnez l’onglet Clés .
  4. Sélectionnez le menu déroulant Ajouter une clé , puis sélectionnez Créer une nouvelle clé.
  5. Choisissez le format JSON.
  Remarque
  
  Le contenu de la clé privée est enregistré dans un fichier temporaire sur la machine virtuelle lors de l’exécution des processus d’analyse. Ce fichier temporaire est supprimé une fois les analyses terminées. En cas d’échec de l’analyse, le système continuera à réessayer jusqu’à ce qu’il réussisse. Vérifiez que l’accès est correctement limité sur la machine virtuelle sur laquelle SHIR est en cours d’exécution.
  
  Pour en savoir plus sur les informations d’identification, reportez-vous au lien ici.
4. Emplacement du pilote : spécifiez le chemin d’accès à l’emplacement du pilote JDBC sur votre ordinateur où s’exécute le runtime d’intégration auto-hôte. Par exemple : D:\Drivers\GoogleBigQuery.
  1. Pour le runtime d’intégration auto-hébergé sur un ordinateur local : D:\Drivers\GoogleBigQuery. Il s’agit du chemin d’accès à l’emplacement du dossier JAR valide. La valeur doit être un chemin d’accès de fichier absolu valide et ne contient pas d’espace. Assurez-vous que le pilote est accessible par le runtime d’intégration auto-hébergé ; Pour en savoir plus, consultez la section relative aux conditions préalables.
  2. Pour le runtime d’intégration auto-hébergé pris en charge par Kubernetes : ./drivers/GoogleBigQuery. Il s’agit du chemin d’accès à l’emplacement du dossier JAR valide. La valeur doit être un chemin de fichier relatif valide. Reportez-vous à la documentation pour configurer une analyse avec des pilotes externes pour charger les pilotes à l’avance.
5. Jeu de données : spécifiez une liste de jeux de données BigQuery à importer. Par exemple : dataset1;dataset2. Lorsque la liste est vide, tous les jeux de données disponibles sont importés. Les modèles de nom de jeu de données acceptables peuvent être des noms statiques ou contenir des caractères génériques .
  
  Exemple : A%;%B;%C%;D
  - Commencer par A ou
  - se terminer par B ou
  - contenir C ou
  - égal à D
  L’utilisation de NOT et de caractères spéciaux n’est pas acceptable.
6. Mémoire maximale disponible : mémoire maximale (en Go) disponible sur votre machine virtuelle à utiliser par les processus d’analyse. Cela dépend de la taille du projet Google BigQuery à analyser.
Sélectionnez Tester la connexion.
Cliquez sur Continuer.
Choisissez votre déclencheur d’analyse. Vous pouvez configurer une planification ou exécuter l’analyse une seule fois.
Passez en revue votre analyse et sélectionnez Enregistrer et exécuter.

Afficher vos analyses et exécutions d’analyse

Pour afficher les analyses existantes :

Accédez au portail Microsoft Purview. Dans le volet gauche, sélectionnez Mappage de données.
Sélectionnez la source de données. Vous pouvez afficher une liste des analyses existantes sur cette source de données sous Analyses récentes, ou vous pouvez afficher toutes les analyses sous l’onglet Analyses .
Sélectionnez l’analyse qui contient les résultats que vous souhaitez afficher. Le volet affiche toutes les exécutions d’analyse précédentes, ainsi que les status et les métriques pour chaque exécution d’analyse.
Sélectionnez l’ID d’exécution pour case activée les détails de l’exécution de l’analyse.

Gérer vos analyses

Pour modifier, annuler ou supprimer une analyse :

Accédez au portail Microsoft Purview. Dans le volet gauche, sélectionnez Mappage de données.
Sélectionnez la source de données. Vous pouvez afficher une liste des analyses existantes sur cette source de données sous Analyses récentes, ou vous pouvez afficher toutes les analyses sous l’onglet Analyses .
Sélectionnez l’analyse que vous souhaitez gérer. Vous pouvez ensuite :
- Modifiez l’analyse en sélectionnant Modifier l’analyse.
- Annulez une analyse en cours en sélectionnant Annuler l’exécution de l’analyse.
- Supprimez votre analyse en sélectionnant Supprimer l’analyse.

Remarque

La suppression de votre analyse ne supprime pas les ressources de catalogue créées à partir d’analyses précédentes.

Traçabilité

Après avoir analysé votre source Google BigQuery, vous pouvez parcourir le catalogue de données ou rechercher dans le catalogue de données pour afficher les détails de la ressource.

Accédez à l’onglet Ressource -> Traçabilité, vous pouvez voir la relation de ressource le cas échéant. Reportez-vous à la section Fonctionnalités prises en charge sur les scénarios de traçabilité Google BigQuery pris en charge. Pour plus d’informations sur la traçabilité en général, consultez le guide de l’utilisateur sur la traçabilité et la traçabilité des données.

Vue de traçabilité Google BigQuery

Étapes suivantes

Maintenant que vous avez inscrit votre source, suivez les guides ci-dessous pour en savoir plus sur Microsoft Purview et vos données.

Partager via