Partager via


Comprendre les équipes et les fonctions pour l’analytique à l’échelle du cloud dans Azure

Pour l’analytique à l’échelle du cloud, nous recommandons de déplacer les équipes chargées par exemple de l’ingestion, du traitement, de l’analyse, de la consommation et de la visualisation, qui travaillent en équipes cloisonnées horizontalement vers des équipes verticales agiles et inter-domaines à chaque niveau. Les équipes de plateformes, telles que les opérations de plateforme de données et les opérations de plateforme, sont regroupées dans un groupe de plateforme commun.

Diagram of cloud-scale analytics teams.

Groupe de plateformes

Le groupe de plateformes se compose de deux équipes :

  • Opérations de plateforme : Opérations de plateforme fait partie du groupe de plateforme. Opérations de plateforme fonctionne et détient la plateforme cloud. Cette équipe est responsable de l’instanciation de la zone d’atterrissage de la gestion des données et de la structure de la zone d’atterrissage des données comme la mise en réseau, le peering, le service de base et la supervision au sein de l’analytique à l’échelle du cloud.

Ils aident généralement les plateformes de données à développer des interfaces de gestion des services informatiques pour les personas dans la zone d’atterrissage des données au début du déploiement de l’analytique à l’échelle du cloud. Ces interfaces sont généralement des appels d’API REST à un service pour intégrer produits de données, définir la sécurité et ajouter des services aux zones d’atterrissage des données.

  • Opérations de plateforme de données : Le groupe d’opérations de la plateforme de données est hébergé dans le groupe de plateformes. Opérations de plateforme de données fournit des services tels que la surveillance centrale, le catalogage et les stratégies réutilisables pour les produits et les zones d’atterrissage de données. Les opérations de plateforme de données détiennent la zone d’atterrissage de gestion des données, et les autres responsabilités de l’équipe sont les suivantes :

Développer l’infrastructure

  • Développez des modèles IaaS (infrastructure en tant que code) pour la zone d’atterrissage des données. Les modèles doivent être mis à jour et gérés au fil du temps. Ils peuvent couvrir plusieurs scénarios.
  • Hiérarchisez les modèles et ajoutez de nouvelles fonctionnalités basées sur un cycle de commentaires d’autres équipes.
  • Travaillez dans une infrastructure agile avec l’objectif courant de produire des modèles d’infrastructure standard.

Répondre aux nouvelles demandes de zone d’atterrissage de données

L’équipe chargée de la plateforme de données doit fournir les outils et les services nécessaires pour prendre en charge les modèles qu’elle a créés. Les outils de gestion des services informatiques comme ServiceNow peuvent gérer les demandes de ticket approuvées par l’équipe Opérations de plateforme de données pour la création de nouvelles zones d’atterrissage de données. Une fois approuvé, une nouvelle zone d’atterrissage est dupliquée à partir du modèle de base pour créer un projet DevOps, et les pipelines déploient des modèles dans un nouvel environnement.

Boucle de commentaires et d’amélioration de la plateforme de données

Deux options sont disponibles pour améliorer les modèles :

  • Les équipes en charge des instances des modèles d’infrastructure amélioreraient leurs modèles et déploiements DevOps. Si les équipes découvrent des problèmes dans les modèles, les opérations de plateforme de données peuvent prendre en charge les équipes et fusionner les modifications de leur duplication dans le modèle.

  • D’autres équipes responsable de zones d’atterrissage des données doivent être en mesure de créer des tickets d’amélioration et de backlog qui améliorent les modèles en fonction de la priorité des tickets.

Stratégies Azure pour l’analytique à l’échelle du cloud

Les principes de l’analytique à l’échelle du cloud mettent l’accent sur l’agilité et les garde-fous en libre-service pour protéger les données, les coûts et les modèles. Opérations de plateforme de données fonctionne avec les opérations de plateforme pour définir la qualité, et ces équipes collaborent pour implémenter des stratégies de données spécifiques. Les opérations de plateforme de données doivent suivre un processus de révision pour mettre à jour et gérer les nouvelles fonctionnalités ajoutées aux produits.

Déployer et utiliser des zones d’atterrissage pour la gestion des données

Les opérations de plateforme de données et les opérations de plateforme fonctionnent ensemble pour déployer et exploiter des zones d’atterrissage de gestion des données. Une zone d’atterrissage de gestion des données fournit des services partagés aux zones d’atterrissage des données, ce qui en fait une composante centrale de l’analytique à l’échelle du cloud.

Opérations de la zone d’atterrissage des données

Les opérations de zone d’atterrissage des données fonctionnent et gèrent l’instance de zone d’atterrissage des données tout en répondant aux demandes de l’équipe d’application de données. Elles fournissent un grand nombre des mêmes services que les opérations de plateforme des données, mais sont limitées à leur zone d’atterrissage des données.

Elles fonctionnent hors du référentiel dupliqué qui est créé lors de la création d’une zone d’atterrissage de données. Pour demander des modifications de stratégie, ils doivent déclencher des tickets liés à Opérations de la zone d’atterrissage pour autoriser ces exceptions.

Soutenir l’équipe d’application de données pour personnaliser les produits de données

L’équipe des opérations de zone d’atterrissage des données aide l’équipe d’application de données en utilisant les demandes de tirage (pull request) pour envoyer de nouveaux modèles de produits aux référentiels de produits de données respectifs.

En tant que propriétaire de la zone d’atterrissage, Azure DevOps dirigera l’approbation pour les modifications apportées aux opérations de zone d’atterrissage des données :

  • En cas d’approbations, les modifications du modèle seront déplacées vers la branche principale et déployées en production via l’intégration continue/le développement continu, provoquant la mise à jour de la plateforme/infrastructure du produit.

  • En cas de refus, l’équipe des opérations de zone d’atterrissage des données collabore avec l’équipe d’application de données pour corriger les modifications.

Répondre aux nouvelles demandes de produit de données

Les opérations de zone d’atterrissage des données soutiennent les équipes d’application de données pour créer des produits de données. Quand les équipes d’application de données ont besoin d’aide, une solution de gestion des services informatiques, par exemple une application logique d’automatisation, orchestre l’approbation ou le déploiement d’un nouveau référentiel d’application de données. Les équipes opérations de zone d’atterrissage de données sont averties des nouvelles demandes et approuvent ou déclinent les déploiements. Une fois la demande approuvée, un projet DevOps est créé, le modèle principal et les artefacts sont dupliqués, et une nouvelle application de données est déployée.

Microsoft Azure Well-Architected Framework

Les opérations de zone d’atterrissage des données sont responsables de la zone d’atterrissage des données et il est recommandé que l’équipe soit compétente concernant Azure Well-Architected Framework, qui fournit des conseils en matière d’optimisation, de fiabilité et de sécurité.

Les tâches habituelles

Les opérations de zone d’atterrissage des données sont responsables des tâches d’entreprise qui incluent la collecte de commentaires et de demandes d’amélioration. Ces demandes sont classées par ordre de priorité et partagées régulièrement avec les opérations de la plateforme de données. L’équipe surveille la zone d’atterrissage des données pour les incidents et les événements d’intégrité. Elle fera appel à d’autres équipes responsables des opérations en cas d’incidents graves pour atténuer, restaurer les sauvegardes, basculer et mettre les services à l’échelle.

Équipe d’application de données

L’équipe d’application de données fournit de nouveaux produits de données à l’entreprise. Elles proviennent des magasins de données en lecture et les transforment en solutions d’entreprise. Tout ce qui transforme les données en vue de leur utilisation est classé comme un produit de données. Cette équipe réunit souvent des spécialistes techniques et des experts en la matière qui peuvent aider l’entreprise à obtenir rapidement une valeur ajoutée. Les produits de données vont des rapports simples aux configurations personnalisées avec des applications web Kubernetes pilotées par les données, en passant par de nouveaux produits de données.

Nouveaux produits de données

Les propriétaires de produits et les représentants de l’entreprise créent des demandes de nouveaux produits de données au besoin. Le bureau responsable des données évalue la configuration requise et assemble une nouvelle équipe d’application de données disposant d’une grande expérience. L’équipe identifie les produits de données requis pour le produit de données et demande l’autorisation à la ressource de données. Si un nouveau produit de données est nécessaire, l’équipe d’application de données reçoit un ticket pour l’ingérer. L’équipe identifie les services requis pour le nouveau produit de données et demande un nouveau produit de données par le biais du processus de déploiement d’application de données. L’équipe d’application de données reçoit un référentiel dupliqué depuis le modèle d’application de données de référence pour déployer l’application de données.

Certifier les produits de données

Sur une plateforme en libre-service, tous les utilisateurs peuvent créer des rapports, organiser des produits de données dans un compte de stockage de développeur Azure Data Lake et créer des produits de données utilisables par l’entreprise. Les demandes de révision des produits de données se présentent dans les cas suivants :

  • Les sponsors de l’entreprise consignent des tickets pour certifier les produits de données.
  • L’équipe des opérations de la plateforme des données désigne les produits de données en fonction de leur popularité.

Une équipe d’application de données peut initier un processus de certification, des opérations de plateforme de données à définir, ainsi que la sécurité numérique, qui peut inclure :

  • Tests conçus pour valider les transformations de données et la logique métier
  • Évaluations pour : la sécurité, la conformité ou l’impact sur les performances

Lors de la certification, les artefacts sont assemblés et chargés vers un référentiel de produits de données, la documentation est publiée et l’équipe d’application de données est avertie.

Prise en charge du produit

Les utilisateurs peuvent envoyer des commentaires à l’aide d’une solution de gestion des services informatiques ou directement au sein du produit, car un ticket est acheminé vers le propriétaire du produit de données. Cette personne catégorise la demande et détermine s’il faut la réaffecter à l’équipe d’application de données pour correction ou entrer des commentaires dans un backlog de produit et effectuer une révision pendant les cycles de planification du produit.

Équipe des applications de science des données

Tandis que l’équipe des produits de science des données crée des produits de données, elle est distincte, car ses fonctions mènent à des produits de données. Les modèles publiés deviennent alors des produits de données que d’autres utilisateurs pourront utiliser, et le modèle suit un modèle d’opérations de Machine Learning qui est associé à la zone d’atterrissage des données.

L’équipe des produits de science des données commence par rechercher et trouver les produits de données appropriés pour son cas d’usage. Les solutions de gouvernance des données peuvent révéler plus de détails tels que la qualité des données, la traçabilité ou un jeu de données ou un profil similaire. Ils recherchent si un exemple de jeu de données est disponible et si les données sont pertinentes pour le projet. Une fois l’accès aux données accordé au moyen d’un catalogue de données ou un package d’accès Microsoft Entra, l’équipe utilise les services de la zone d’atterrissage des données pour explorer et analyser les données.

Avant de traiter toutes les données, l’équipe utilise le calcul local ou distant pour traiter et analyser les exemples de produits de données. L’équipe peut optimiser les cibles de calcul distantes avec des produits de données plus volumineux afin d’effectuer l’apprentissage et de développer des modèles Machine Learning avec des exécutions, des sorties et des modèles suivis dans Azure Machine Learning.

Lorsque l’équipe a développé des modèles de Machine Learning, elle commence à les rendre opérationnels. Pour ce faire, ils développent l’équipe pour inclure des ingénieurs DataOps et Machine Learning qui peuvent vous aider à déplacer les modèles dans un nouveau produit, comme indiqué dans un rôle d’équipe de produit de données.

L’équipe de science des données continue à collaborer avec les propriétaires de produits de données associés pour capturer les commentaires, prendre en charge, ainsi que pour résoudre et mettre à jour les modèles en production à l’aide d’une méthodologie d’opérations de Machine Learning.

Analyste

Les analystes représentent un groupe important qui comprend des analystes d’entreprise, des utilisateurs avec pouvoir et, en général, toute personne de l’organisation ayant un intérêt pour l’optimisation des données dans le but de créer des insights métiers. L’activation en libre-service est un principe clé qui encadre les analystes pour accéder aux analyses et aux données sans qu’il soit nécessaire de sécuriser le budget et les ressources informatiques formels.

Conseil

Les entreprises doivent consulter les informations créées par les analystes comme le prochain ensemble de produits de données potentiels à certifier pour que d’autres puissent les utiliser au sein de l’entreprise.

Rechercher et demander des données

Les analystes consultent les catalogues/places de marché de données pour découvrir les produits de données pertinents.

  • Si la ressource de données est introuvable ou n’existe pas, les analystes ouvrent un ticket de support auprès de l’équipe d’application de données. L’équipe d’application de données aide à rechercher le jeu de données ou à ajouter la demande au backlog pour l’évaluer dans un autre cycle de développement.

  • Si le jeu de données existe, l’analyse peut identifier l’appartenance au groupe Microsoft Entra pour les ressources figurant dans le catalogue et utiliser le portail du package d’accès Azure pour demander l’accès au groupe Microsoft Entra.

Créer des rapports

Les analystes peuvent utiliser des outils comme Microsoft Power BI pour intégrer des produits de données dans des rapports. Ces rapports peuvent être destinés à une utilisation individuelle ou à la publication d’un produit de données certifié. Avant de publier le rapport au sein de l’organisation, il doit être certifié par un processus de certification des produits de données pour la sécurité, la conformité et les performances.

Requêtes à exécuter au besoin

L’analytique à l’échelle du cloud dispose d’espaces de travail partagés dans lesquels les analystes peuvent interroger des données soumises à autorisation. Il est courant que les produits de données fournissent un calcul dédié pour exécuter des requêtes lorsqu’elles sont nécessaires. Dans les deux cas, l’analyste peut exécuter des requêtes sur des produits de données dans les zones d’atterrissage des données. Cela fait également l’objet d’autorisations. Les résultats des requêtes peuvent être stockés dans les espaces de travail Azure Data Lake à réutiliser.

Commentaires des utilisateurs

Étant donné que les analystes peuvent servir en tant que sources inexploitées d’informations et d’améliorations, les entreprises sont vivement encouragées à créer des groupes de commentaires utilisateur pour chaque zone d’atterrissage des données.

En plus de participer à ces groupes d’utilisateurs, les analystes doivent envoyer les commentaires sur la ressource de données à l’équipe d’application de données et soumettre les problèmes au sein du catalogue de données ou de la solution de gestion des services informatiques. Ils peuvent soumettre des problèmes de traitement des données à l’équipe d’application de données ou au sein d’une solution gestion des services informatiques.

Remarque

Une gestion des services informatiques doit servir d’emplacement central pour envoyer des commentaires et faire remonter les problèmes. L’envoi de commentaires directs à des équipes individuelles peut sembler être une solution plus rapide, mais cette approche ne donne pas à l’entreprise une visibilité sur les défis de la plateforme. Une solution de gestion des services informatiques avec un routage correct vers les équipes d’application de données permet d’avoir une vue d’ensemble unique dans l’entreprise.

Matrice d’affectation des responsabilités

  • Responsable : qui effectue la tâche ?
  • Responsable : qui prend des décisions et effectue des actions sur la tâche ?
  • Consulté : qui reçoit des communications sur les décisions et la tâche ?
  • Informé : qui est informé des décisions et actions pendant le projet ?
Rôle Environnement cloud Zone d'atterrissage de gestion de données Zone d’atterrissage de données Intégration des données Produits de données
Propriétaire du service Informée Responsable Consulté informé Consulté informé Consulté informé
Propriétaire du service de zone d’atterrissage des données Informée Consulté informé Responsable Responsable Responsable
Opérations de plateforme cloudgraphique de réseau pair à pair En charge Consultée Consultée Consultée Consultée
Opérations de plateforme de données Consultée En charge En charge Consultée Consultée
Opérations de la zone d’atterrissage des données Informée En charge En charge En charge En charge
Équipe d’application de données Informée Informée Informée En charge

Étapes suivantes

Azure Well-Architected Framework pour les charges de travail de données