Meilleures pratiques de déploiement de Microsoft Purview pour l’analytique à l’échelle du cloud
La zone d’atterrissage de gestion des données est responsable de la gouvernance de la plateforme d’analyse à l’échelle du cloud. Elle s’appuie sur Microsoft Purview pour fournir la plupart des fonctionnalités de gestion des données.
Notes
Les instructions de cette section décrivent des configurations spécifiques à l’analyse à l’échelle du cloud. Il s’agit d’une collection de meilleures pratiques Azure pour améliorer la gouvernance de vos données à l’aide de Microsoft Purview. L’aide complète la documentation officielle de Microsoft Purview.
Vue d’ensemble
Microsoft Purview est un service de gouvernance de données unifiée qui vous permet de gérer et de régir vos données locales, multiclouds et SaaS (Software as a Service). Créez une carte holistique et à jour du paysage de vos données, avec la découverte automatisée des données, la classification des données sensibles et la traçabilité des données de bout en bout. Donnez aux curateurs de données la possibilité de gérer et de sécuriser votre patrimoine de données. Donnez les moyens aux consommateurs de données de trouver des données utiles et fiables.
Conseil
Nous vous recommandons d’utiliser des outils tiers de votre choix pour intégrer les fonctionnalités restantes de la zone d’atterrissage de gestion des données avec Azure qui ne sont actuellement pas prises en charge par Microsoft Purview.
Un compte Microsoft Purview est déployé à l’intérieur de la zone d’atterrissage de gestion des données, qui sert de catalogue de données centralisé. À partir de la zone d’atterrissage de gestion des données, Microsoft Purview peut communiquer avec chaque zone d’atterrissage de données via une connectivité de réseau privé à l’aide de l’appairage de réseaux virtuels sur la gestion des données, les zones d’atterrissage de données et les runtimes d’intégration auto-hébergés. La détection de produits de données dans des magasins de données locaux et d’autres clouds publics est obtenue par davantage de déploiements de runtimes d’intégration auto-hébergés.
Configuration du compte
La première étape est le déploiement d’un compte Microsoft Purview. Pendant le déploiement de la zone d’atterrissage de gestion des données, un seul compte Microsoft Purview est déployé automatiquement dans l’abonnement de gestion des données. L’objectif est de centraliser l’ensemble de la carte de données dans un seul compte Microsoft Purview dans toutes les zones d’atterrissage de données. Nous vous recommandons de prendre en compte un seul compte Microsoft Purview partagé à l’intérieur de l’abonnement à la zone d’atterrissage de gestion des données par type d’environnement.
En plus du compte Microsoft Purview, un groupe de ressources managées est également déployé. Un compte de stockage géré et un espace de noms Event Hubs géré sont déployés à l’intérieur de ce groupe de ressources et sont utilisés pour ingérer les métadonnées des ressources de données en raison des analyses. Étant donné que ces ressources sont consommées par le catalogue Microsoft Purview, elles ne doivent pas être supprimées. Une affectation de refus de contrôle d’accès en fonction du rôle (RBAC) Azure est ajoutée automatiquement pour tous les principaux au niveau du groupe de ressources au moment du déploiement.
Configuration requise
Avant le déploiement, passez en revue les exigences suivantes au sein de votre abonnement à la zone d’atterrissage de gestion des données :
- Créer des exemptions de stratégie : si vous avez une affectation Azure Policy existante qui empêche les administrateurs ou les applications de créer des comptes de stockage Azure, un espace de noms Azure Event Hubs, des comptes Microsoft Purview, des zones de DNS privé Azure ou des points de terminaison privés Azure, vous devez appliquer des exemptions Azure Policy. Les exemptions sont obligatoires, donc les ressources nécessaires peuvent être déployées dans la zone d’atterrissage de gestion des données, ainsi que dans le déploiement de Microsoft Purview.
- Inscrire des fournisseurs de ressources : veillez à inscrire les fournisseurs de ressources Azure suivants dans l’abonnement à la zone d’atterrissage de gestion des données :
Microsoft.EventHub
Microsoft.Purview
Microsoft.Storage
Important
Pour réussir le déploiement de la zone d’atterrissage de gestion des données avec Microsoft Purview, les conditions préalables doivent être remplies. Pour plus d’informations sur la procédure d’inscription d’un fournisseur de ressources, consultez Fournisseurs de ressources pour les services Azure.
Mise en réseau et résolution de noms
L’analyse à l’échelle du cloud utilise un point de terminaison privé Azure pour permettre un accès sécurisé au catalogue par le biais d’Azure Private Link. Le point de terminaison privé utilise des adresses IP de l’espace d’adressage du réseau virtuel pour votre compte Microsoft Purview. Le trafic réseau entre les clients sur le réseau virtuel et le compte Microsoft Purview traverse le réseau virtuel et Private Link sur le réseau principal de Microsoft. Le réseau virtuel et Private Link éliminent l’exposition de l’Internet public. Pour activer l’isolement réseau pour les scénarios d’analyse de bout en bout, d’autres points de terminaison privés sont déployés. Les points de terminaison privés autorisent la connexion des sources de données dans Azure et des sources locales via Azure Private Link.
Déploiement du point de terminaison privé Azure
Le compte Microsoft Purview est déployé dans le réseau virtuel (VNet) Azure au sein de la zone d’atterrissage de gestion des données avec plusieurs points de terminaison privés :
Compte : un point de terminaison privé est utilisé pour autoriser uniquement les appels client à Microsoft Purview provenant du réseau privé. Il est requis comme condition préalable pour un point de terminaison privé de portail.
Portail : un point de terminaison privé vise à fournir une connectivité privée au portail de gouvernance Microsoft Purview. Le portail de gouvernance Microsoft Purview est l’interface utilisateur de gestion qui vous permet d’accéder à, et de gérer Microsoft Purview à partir d’un navigateur web.
Points de terminaison privés d’ingestion pour analyser des sources de données IaaS et PaaS Azure dans des réseaux virtuels Azure et des sources de données locales via une connexion privée. Cette méthode garantit l’isolement réseau pour vos métadonnées circulant des sources de données vers Microsoft Purview Data Map.
Important
Pour analyser correctement des sources de données dans Microsoft Purview, un runtime d’intégration auto-hébergé doit être déployé dans le même réseau virtuel que celui où sont déployés les points de terminaison privés d’ingestion de Microsoft Purview, qui peut se trouver à l’intérieur de la zone d’atterrissage de gestion des données ou de toute zone d’atterrissage de données.
Pour plus d’informations sur la mise en réseau de la zone d’atterrissage de gestion des données, consultez Mise en réseau de l’analytique à l’échelle du cloud.
Pour plus d’informations sur les points de terminaison privés Microsoft Purview, consultez Utilisation de points de terminaison privés pour un compte Microsoft Purview.
Point de terminaison privé pour le compte et le portail
Pour gérer le patrimoine de données à l’aide de Microsoft Purview et pour vous connecter au portail de gouvernance Microsoft Purview, vous devez utiliser une connectivité privée. L’accès public est limité au compte Microsoft Purview déployé à l’intérieur de la zone d’atterrissage de gestion des données pour renforcer la sécurité. Des points de terminaison privés de compte et de portail sont déployés pour fournir une connectivité privée à votre compte Microsoft Purview et un accès au portail de gouvernance Microsoft Purview.
Accéder au portail de gouvernance Microsoft Purview
Pour conserver l’utilisation du portail Microsoft Purview via la connectivité privée, nous vous recommandons de refuser l’accès au réseau public dans les paramètres de Microsoft Purview. Pour vous connecter au portail de gouvernance Microsoft Purview, vous avez besoin d’un ordinateur ou d’un serveur de rebond déployé dans votre réseau. Vous pouvez utiliser un ordinateur à partir du réseau hybride ou en tant que machine virtuelle à l’intérieur de la zone d’atterrissage de gestion des données. Un ordinateur de rebond est un serveur d’accès à distance renforcé, qui utilise généralement le logiciel Services Bureau à distance ou Secure Shell (SSH) de Microsoft. Les ordinateurs de rebond agissent comme un point d’exécution pas à pas pour les administrateurs accédant à des systèmes critiques en effectuant toutes les actions administratives depuis l’hôte dédié.
Utilisez une de ces options pour gérer vos données à l’aide de Microsoft Purview via le portail de gouvernance Microsoft Purview :
Option 1 : utilisez un ordinateur de rebond connecté au réseau d’entreprise. Pour utiliser ce modèle de connectivité, vous devez disposer d’une connectivité entre le réseau virtuel sur lequel le point de terminaison privé du portail Microsoft Purview est créé et votre réseau d’entreprise.
Consultez Mise en réseau de Cloud Adoption Framework pour plus d’informations dans Vue d’ensemble de la topologie et de la connectivité du réseau.
Option 2 : si la connectivité hybride n’est pas disponible dans votre organisation, déployez une machine virtuelle à l’intérieur de la zone d’atterrissage de gestion des données. Déployez Azure Bastion pour vous connecter à Microsoft Purview à l’aide d’une connexion sécurisée.
Points de terminaison privés pour l’ingestion
Microsoft Purview peut analyser des sources de données dans des environnements Azure ou locaux à l’aide de points de terminaison publics ou privés. Le réseau d’une zone d’atterrissage de données est automatiquement appairé avec le réseau virtuel de la zone d’atterrissage de gestion des données et le réseau virtuel d’abonnement de connectivité. Ainsi, les sources de données dans les zones d’atterrissage de données peuvent être analysées à l’aide d’une connectivité privée.
Nous vous recommandons d’activer des points de terminaison privés pour d’autres sources de données dans vos zones d’atterrissage et d’analyser des sources de données à l’aide d’une connectivité privée.
Résolution de noms
La résolution DNS des points de terminaison privés doit être gérée avec des zones de DNS privé Azure centrales. Les zones de DNS privé suivantes sont déployées automatiquement dans le déploiement Microsoft Purview dans la zone d’atterrissage de gestion des données :
privatelink.purview.azure.com
privatelink.purviewstudio.azure.com
privatelink.blob.core.windows.net
privatelink.queue.core.windows.net
privatelink.servicebus.windows.net
Si vous disposez d’un cloud hybride et que la résolution de noms intersite est requise, il est important de configurer correctement les serveurs DNS locaux pour transférer les demandes appropriées au serveur DNS personnalisé dans Azure.
Si vous disposez déjà d’un DNS personnalisé dans Azure, vous devez configurer des redirecteurs conditionnels sur votre serveur DNS local qui pointe vers celui-ci.
Si vous ne disposez pas d’une machine virtuelle DNS personnalisée dans Azure, vous pouvez déployer le groupe de machines virtuelles identiques Azure qui comprend des NGINX déjà configurés pour transférer les requêtes DNS à l’adresse IP DNS fournie par Azure
168.63.129.16
. Pour plus d’informations, consultez Déployer un groupe de machines virtuelles identiques d’un proxy DNS NGINX sur un réseau virtuel existant.
Conseil
Pour autoriser la résolution de noms entre la zone d’atterrissage de gestion des données et les zones d’atterrissage de données, utilisez les mêmes zones DNS privées situées dans le groupe de ressources {prefix}-global-dns
à l’intérieur de la zone d’atterrissage de gestion des données.
Pour plus d’informations sur la mise en réseau de l’analytique à l’échelle du cloud et la résolution de noms, consultez Mise en réseau de l’analytique à l’échelle du cloud
Gérer l’authentification des sources de données dans Microsoft Purview
Microsoft Purview nécessite l’accès au plan de contrôle et au plan de données pour inscrire et analyser des sources de données.
Inscription des sources de données
Lorsque vous déployez le compte Microsoft Purview, une identité managée affectée par le système est créée automatiquement. Cela est créé dans le locataire Microsoft Entra et affecté à cette ressource. Pour lire et répertorier des ressources Azure sous un abonnement ou un groupe de ressources lors de l’inscription de sources de données dans Microsoft Purview, l’identité managée Microsoft Purview nécessite le rôle Lecteur Azure RBAC sur l’étendue.
Envisagez d’affecter le rôle Lecteur à l’identité managée Microsoft Purview dans chaque abonnement à une zone d’atterrissage de données avant d’inscrire l’une de ces sources de données dans Microsoft Purview :
- Stockage Blob Azure
- Azure Data Lake Storage Gen1
- Azure Data Lake Storage Gen2
- Azure SQL Database
- Azure SQL Managed Instance
- Azure Synapse Analytics
Analyser des sources de données
Avant d’exécuter de nouvelles analyses, assurez-vous que vous avez rempli les conditions suivantes :
Déployer et inscrire des runtimes d’intégration auto-hébergés
Déployez et inscrivez des machines virtuelles de runtime d’intégration auto-hébergé (IR) pour chaque zone d’atterrissage de données. Les IR auto-hébergés sont obligatoires pour analyser des sources de données, telles qu’Azure SQL Database ou des sources de données basées sur des machines virtuelles. Ces sources de données peuvent être locales ou dans chacune des zones d’atterrissage de données. Un IR auto-hébergé peut exécuter des activités de copie entre un magasin de données cloud et un magasin de données dans un réseau privé. Il peut aussi répartir les activités de transformation suivantes selon les ressources de calcul dans un réseau local ou un réseau virtuel Azure. L’installation d’un IR auto-hébergé nécessite une machine locale ou une machine virtuelle à l’intérieur d’un réseau privé.
Conseil
Nous vous recommandons d’utiliser un ordinateur dédié pour héberger l’IR. L’ordinateur doit être séparé du serveur qui héberge le magasin de données. En outre, il est vivement recommandé de planifier au moins deux machines virtuelles d’IR auto-hébergé dans chaque zone d’atterrissage de données ou environnement local.
Pour analyser des sources de données locales, vous pouvez déployer des IR auto-hébergés au sein de votre réseau local. Toutefois, pour analyser des sources de données situées dans Azure, les IR auto-hébergés doivent être déployés dans le même réseau virtuel que les points de terminaison privés d’ingestion de Microsoft Purview. Il est recommandé de déployer de nouveaux points de terminaison privés d’ingestion et de nouveaux IR auto-hébergés par région où se trouvent les sources de données.
Vous souhaiterez peut-être héberger une charge de travail simultanée croissante. Vous pouvez également chercher à obtenir des performances supérieures dans le cadre de votre charge de travail actuelle. Vous pouvez améliorer la mise à l’échelle du traitement en utilisant l’une des approches suivantes :
- Effectuer un scale-up lorsque le processeur et la mémoire du nœud sont sous-utilisés
- Effectuer un scale-out de l’IR auto-hébergé en ajoutant des nœuds ou des groupes de machines virtuelles identiques
Attribuer l’accès au plan de données pour analyser les sources de données
Pour permettre l’accès à Microsoft Purview au niveau du plan de données et aux sources de données, il existe plusieurs options pour configurer l’authentification :
- Option 1 : identité managée
- Option 2 : clé de compte ou mots de passe stockés dans Azure Key Vault en tant que secret
- Option 3 : principal de service stocké dans Azure Key Vault en tant que secret
Important
Pour analyser des sources de données via Azure Private Link dans Microsoft Purview, vous devez déployer un runtime d’intégration auto-hébergé et utiliser une clé de compte/authentication SQL ou un principal de service à partir des options d’authentification auprès des sources de données.
Conseil
Lorsqu’une source de données ne peut pas utiliser Azure Private Link, nous vous recommandons d’utiliser l’identité managée Microsoft Purview pour analyser les sources de données. Dans ce cas, vous devez autoriser l’accès public sur les paramètres du pare-feu de votre compte Microsoft Purview.
Stocker les secrets dans Azure Key Vault
Plusieurs ressources Azure Key Vault sont déployées dans la zone d’atterrissage de gestion des données et les abonnements à la zone d’atterrissage de données. Les ressources Azure Key Vault stockent des secrets liés aux sources de données de métadonnées dans la zone d’atterrissage de gestion des données et les sources de données. Azure SQL Database est un exemple de source de données utilisé par Azure Data Factory. De même qu’Azure Database pour MySQL, qui est utilisé par les espaces de travail Databricks dans la zone d’atterrissage de données.
Connecter des coffres de clés Azure de zone d’atterrissage de données à votre compte Microsoft Purview
Microsoft Purview peut utiliser les secrets et les informations d’identification stockés dans les coffres de clés Azure. Ils ne peuvent être utilisés que si vous créez la connexion Azure Key Vault à l’intérieur du compte Microsoft Purview et que le secret est inscrit. Une fois que vous avez ajouté une nouvelle zone d’atterrissage de données, vous devez créer une connexion Azure Key Vault à l’intérieur du compte Microsoft Purview. La connexion est une association un-à-un de la ressource Azure Key Vault au compte Microsoft Purview. Cela permet la création d’informations d’identification à l’intérieur du compte Microsoft Purview en fonction des secrets stockés dans Azure Key Vault.
Pour plus d’informations, consultez Créer des connexions Azure Key Vault dans votre compte Microsoft Purview.
Conseil
Supprimez les coffres de clés Azure inutilisés pour réduire les connexions Key Vault.
Créer des informations d’identification dans Microsoft Purview
Vous devrez peut-être exiger la configuration d’informations d’identification à l’aide d’un secret de coffre de clés pour des scénarios spécifiques :
- Pour analyser toutes les sources de données où l’identité managée Microsoft Purview ne peut pas être utilisée comme méthode d’authentification.
- Pour analyser des sources de données à l’aide d’un runtime d’intégration auto-hébergé, les types d’authentification pris en charge, tels que les clés de compte, l’authentification SQL (mot de passe) ou le principal du service, doivent être stockés dans des informations d’identification.
- Pour analyser des sources de données à l’aide d’un point de terminaison privé pour l’ingestion des données.
- Pour analyser des sources de données qui se trouvent à l’intérieur d’une machine virtuelle ou dans un environnement local.
Avant de créer des informations d’identification dans Microsoft Purview, votre compte Microsoft Purview doit avoir accès aux secrets Azure Key Vault. Utilisez la stratégie d’accès Azure Key Vault ou le contrôle d’accès en fonction du rôle (RBAC) pour accorder l’accès requis à Microsoft Purview Managed Service Identity (MSI). Pour plus d’informations sur la procédure d’octroi de l’accès de Microsoft Purview MSI à Azure Key Vault et la création d’informations d’identification dans Microsoft Purview, consultez les Informations d’identification pour l’authentification source dans Microsoft Purview.
Rôles Microsoft Purview et contrôle d’accès
Microsoft Purview possède plusieurs rôles RBAC intégrés, tels que Lecteur de données, Conservateur de données, Administrateur de collection, Administrateur de source de données et Auteur de politiques, pour gérer le plan de données, qui peuvent être combinés pour fournir des privilèges supplémentaires. Par exemple, le rôle Lecteur de données est destiné à des rôles tels que les responsables de données, les gestionnaires de données et les responsables en chef de la sécurité, qui nécessitent un accès en lecture seule au patrimoine de données. Le patrimoine de données peut inclure des classifications, la traçabilité grâce aux options de recherche et des rapports disponibles dans Microsoft Purview.
Une fois le déploiement de la zone d’atterrissage de gestion des données terminé, utilisez le modèle de privilège minimum pour permettre l’accès à l’affichage ou à la gestion des métadonnées dans Microsoft Purview.
Important
Les rôles de plan de données Microsoft Purview doivent être gérés dans le portail de gouvernance Microsoft Purview ou directement à l’aide de l’API.
Pour plus d’informations sur les rôles Microsoft Purview, consultez Contrôle d’accès au plan de données de Microsoft Purview
Rôles Microsoft Purview recommandés
Passez en revue la liste suivante des utilisateurs impliqués dans un déploiement de l’analytique à l’échelle du cloud. Affectez-leur les rôles Microsoft Purview appropriés pour qu’ils puissent contribuer à la réussite du déploiement :
Utilisateur | Rôle | Rôle Microsoft Purview recommandé |
---|---|---|
Propriétaires de produits | Les propriétaires de produits utilisent Azure pour transformer vos solutions, apporter de l’agilité à l’entreprise et optimiser les processus métier. | Lecteur de données |
Architectes de solutions | Définissez des solutions à utiliser dans les limites du réseau professionnel de l’entreprise. Découvrez la gestion des diagnostics, des analyses, de la conception, du déploiement et de l’intégration des services Azure. | |
Développeurs et ingénieurs DevOps | Concevez, créez, déployez, testez et gérez des processus d’intégration continue et de livraison continue avec Azure DevOps ou GitHub. | Non applicable |
Ingénieurs de la sécurité | Permettez à vos équipes de concevoir et d’implémenter une infrastructure sécurisée sur Azure à l’aide des meilleures pratiques. | |
Directeurs techniques et commerciaux | Développez une compréhension générale des services Azure. Contrôlez les coûts de votre cloud, et optimisez vos opérations et l’agilité de votre équipe. | Non applicable |
Décideurs et utilisateurs professionnels | Utilisez Azure pour accéder à des informations exploitables, en espérant qu’elles soient fournies au format le plus approprié. Utilisez l’IA incorporée dans des solutions existantes pour optimiser les processus métier. | Lecteur de données |
Gestionnaires de données | Responsables de l’approvisionnement et de la gestion de l’accès aux ressources de données. | Lecteur de données ou conservateur de données |
Analystes de données et analystes de performances | Azure permet de découvrir et de partager de nouveaux insights à partir de ressources de données existantes ou de données ad hoc. Créez des transformations IA en un clic, utilisez des modèles prédéfinis et générez rapidement des modèles Machine Learning. | |
Ingénieurs de données | Azure permet de créer, d’intégrer et de gérer les produits de données et d’analyse. Créez des applications et des solutions compatibles avec l’IA, le cas échéant. | |
Scientifiques des données des citoyens | Créez des modèles Machine Learning avec de puissants outils visuels, de glisser-déplacer et sans code où le codage n’est pas nécessaire | |
Scientifiques des données | Utilisez des infrastructures de Machine Learning et des outils recommandés pour créer des solutions évolutives en science des données. Accélérez le cycle de vie Machine Learning de bout en bout. | |
Ingénieurs Machine Learning | Activez les processus et l’infrastructure appropriés pour faciliter le déploiement et la gestion des modèles. |
Pour plus d’informations sur les rôles de données, consultez Rôles et équipes.
Étapes suivantes
Azure Machine Learning en tant que produit de données pour l’analyse à l’échelle du cloud