Établir des processus de gestion des opérations
Dès lors que votre entreprise commence à exécuter des charges de travail dans Azure, l’étape suivante consiste à établir un processus de gestion et d’adéquation opérationnelle. Ce processus énumère, implémente, passe en revue de façon itérative et optimise l’état opérationnel pour ces charges de travail.
Un processus d’évaluation de l’adéquation opérationnelle garantit que l’ensemble du portefeuille de charges de travail répond aux besoins de l’entreprise en matière de performances, de fiabilité et de coût. Ce processus aligne les efforts des équipes de l’informatique centrale, du centre d’excellence du cloud et des charges de travail pour délivrer une excellence opérationnelle à grande échelle.
Établir un processus de base pour l’évaluation de l’adéquation opérationnelle
Créez un processus d'évaluation de l'adéquation opérationnelle pour bien comprendre les problèmes résultant de l'exécution des charges de travail dans un environnement de production, et pour déterminer comment remédier à ces problèmes et les résoudre. Cet article décrit un processus général de passage en revue de l’adéquation opérationnelle, que votre entreprise peut utiliser pour atteindre cet objectif.
L’adéquation opérationnelle chez Microsoft
Depuis le début, de nombreuses équipes de Microsoft ont participé au développement de la plateforme Azure. Il est difficile de garantir la qualité et la cohérence d’un projet d’une telle taille et d’une telle complexité. Un processus robuste est nécessaire pour énumérer et implémenter de façon régulière les exigences non fonctionnelles fondamentales.
Les processus suivis par Microsoft forment la base des processus décrits dans cet article.
Comprendre les rôles et les modèles d’exploitation
La gestion des opérations est une discipline étendue impliquant plusieurs rôles au sein de l’entreprise. Selon le modèle d’exploitation des organisations, ces rôles peuvent fonctionner dans un environnement de type matriciel avec un certain nombre de passations entre les équipes d’exploitation centralisées et décentralisées.
- Informatique centrale/Centre d’excellence cloud : Cette fonction technologique centralisée est responsable de la configuration, de l’exploitation, de la gouvernance et de la sécurité de toutes les ressources technologiques du portefeuille de technologies.
- Opérations cloud : Fonction au sein de l’organisation technologique centralisée ; cette fonction d’exploitation gère l’intégrité et les opérations du portefeuille de technologies. Il lui incombe de garantir que le processus s’exécute correctement, que chaque rôle adjacent dans le processus a les outils nécessaires, et que chacun des rôles suivants est tenu responsable des attentes de ce processus.
- Stratégie cloud : Fournit une connaissance des activités pour identifier et définir les priorités des engagements en vue de maintenir les exigences opérationnelles des différentes charges de travail. Il compare également le coût des mesures d'atténuation à l'impact sur l'entreprise, et prend la décision finale concernant les mesures correctives à appliquer.
- Équipe des charges de travail : Responsable du développement et de l’exploitation de charges de travail discrètes, qui correspondent à des applications, des services et une infrastructure spécifiques qui les prennent en charge, localement ou dans le cloud. Le rôle nécessite une connaissance poussée de l’architecture des charges de travail.
Le modèle d’exploitation de chaque organisation détermine la responsabilité et les activités quotidiennes des rôles ci-dessus :
- Opérations centralisées : L’équipe Informatique centrale gère la responsabilité complète des opérations. Les propriétaires de charges de travail peuvent donner des éléments en entrée pour les opérations et la configuration, mais ils n’ont pas d’accès permettant de modifier les environnements de production. Seules les équipes Informatique centrale et Opérations cloud peuvent procéder à des modifications opérationnelles pour améliorer l’adéquation opérationnelle.
- Opérations décentralisées : Les équipes des charges de travail sont entièrement responsables des opérations, généralement via un pipeline CI/CD à maturité et une automatisation DevOps. Dans ce modèle, il n’y a pas de prise en charge centrale pour la configuration, les opérations, la gouvernance ou la sécurité. Cette approche des opérations est hors périmètre pour le Cloud Adoption Framework. Pour ce modèle d’exploitation, reportez-vous à Azure Well-Architected Framework pour obtenir des conseils opérationnels.
- Opérations d’entreprise : Le centre d’excellence cloud est responsable des opérations. Les équipes Opérations cloud et Charges de travail partagent la responsabilité des aspects spécifiques de l’adéquation opérationnelle.
Objectif de l’évaluation
L’adéquation opérationnelle est évaluée dans le portefeuille en utilisant quelques métriques : fiabilité, performances et coût. Ensemble, ces propriétés permettent d’évaluer rapidement l’intégrité et l’adéquation de toutes les ressources du portefeuille. Ces métriques sont évaluées dans les trois élévations de la gestion des opérations.
- Base de référence des opérations (ou base de référence améliorée) : Évalue l’adéquation opérationnelle sur toutes les ressources déployées, indépendamment de leur fonction. Cette vue d’ensemble des opérations permet de propager les changements et les impacts importants, mais elle est limitée par un manque de visibilité dans l’architecture des charges de travail individuelles. Toutes les ressources déployées dans le cloud doivent être couvertes par une base de référence des opérations avec une prise en charge standard des opérations cloud. Certains environnements peuvent nécessiter un degré plus élevé de prise en charge opérationnelle pour répondre aux besoins de la base de référence améliorée.
- Opérations de plateforme : Évalue l’adéquation opérationnelle des plateformes technologiques centralisées. Cette vue des opérations est plus précise, car elle prend en compte l’architecture de la plateforme et la façon dont les modifications apportées à la solution vont affecter l’adéquation opérationnelle. Les modifications apportées aux plateformes technologiques centrales peuvent avoir un impact important en aval sur les charges de travail prises en charge. Toutes les plateformes critiques doivent recevoir un support dédié de la part d’une équipe Informatique centrale.
- Opérations de charge de travail : Évalue l’adéquation opérationnelle d’une charge de travail individuelle. Cette vue des opérations est plus précise et doit être prise en compte quand des améliorations de l’adéquation opérationnelle nécessitent des modifications de l’architecture d’une charge de travail. Les opérations de charge de travail doivent être conformes aux principes d’Azure Well-Architected Framework. Toutes les charges de travail critiques avec un cycle DevOps actif doivent recevoir un support dédié de la part d’une équipe de charge de travail.
L’objectif de l’évaluation de l’adéquation opérationnelle est d’évaluer régulièrement l’adéquation opérationnelle à tous les niveaux. Les améliorations identifiées peuvent ensuite être appliquées au niveau approprié pour indiquer les modifications nécessaires à la gestion de l’ensemble du portefeuille.
Processus de passage en revue de l’adéquation opérationnelle
L’élément clé pour préserver les performances et la continuité du portefeuille d’une entreprise est d’implémenter un processus d’évaluation de l’adéquation opérationnelle.
À haut niveau, le processus se compose de deux phases. Dans la phase des prérequis, les exigences sont établies, puis mises en correspondance avec les services qui les prennent en charge. Cette phase se produit peu fréquemment, peut-être une fois par an ou à l’introduction de nouvelles opérations. Le résultat de la phase des prérequis est utilisé dans la phase des flux. Cette dernière est plus fréquente (périodicité mensuelle, par exemple).
La phase des prérequis
Les étapes de cette phase permettent de recueillir les besoins associés à une évaluation régulière du portefeuille et des charges de travail critiques.
Identifier les opérations d’entreprise critiques. Identifiez les opérations métier critiques de l’entreprise en fonction des engagements métier ayant fait l’objet d’un accord. Les opérations d’entreprise sont indépendantes des fonctions de service de soutien. En d’autres termes, elles représentent les activités réelles que doit effectuer l’entreprise et elles sont prises en charge par un ensemble de services informatiques.
Le terme stratégique (ou critique pour l’entreprise) reflète un impact grave pour l’entreprise si l’opération est empêchée. Par exemple, un revendeur en ligne peut avoir une opération métier, comme « permettre à un client d’ajouter un article au panier » ou « traiter un paiement par carte de crédit ». Si une de ces opérations échoue, un client ne peut pas mener à bien la transaction et l’entreprise ne peut pas réaliser de ventes.
Faire correspondre les opérations aux services. Mappez les opérations métier critiques aux services informatiques (opérations de base de référence, de plateforme ou de charge de travail) qui les supportent. Toute plateforme technologique ou charge de travail nécessaire pour prendre en charge une fonction métier critique doit également être identifiée pour mapper les opérations et les services aux équipes responsables.
Analyser les dépendances entre les services. La plupart des opérations métier nécessitent une orchestration parmi plusieurs charges de travail et plusieurs plateformes technologiques qui les prennent en charge. Il est important de comprendre les dépendances entre chaque ensemble de ressources de support et le flux de transactions critiques via ces services.
Prenez aussi en compte les dépendances entre les services locaux et les services Azure. Dans l’exemple de panier d’achats, le service de gestion des stocks d’inventaire peut être hébergé localement et recevoir des données entrées par les employés d’un entrepôt physique. Cependant, il peut stocker des données hors site dans un service Azure, comme Stockage Azure ou dans une base de données, comme Azure Cosmos DB.
À partir de ces activités est produite une série de métriques de tableau de bord pour la gestion des opérations. Le tableau de bord mesure des critères comme la fiabilité, les performances et le coût. Les métriques de tableau de bord expriment les critères opérationnels que le service doit respecter.
Le tableau de bord doit être exprimé en termes simples pour faciliter la discussion entre les équipes des responsables métier, des opérations cloud et des charges de travail. Par exemple, une métrique de tableau de bord pour la fiabilité peut être codée par couleur en fonction de la réalisation du contrat SLA convenu. Le vert indique que le SLA défini est respecté, le jaune que les critères définis ne sont pas respectés mais qu’une remédiation planifiée est en cours d’implémentation, et le rouge que les critères définis ne sont pas respectés et qu’il n’y a ni plan ni action.
Il est important de souligner que ces métriques doivent refléter directement les engagements métier.
Phase de passage en revue des services
La phase de passage en revue des services est essentielle dans le processus de passage en revue de l’adéquation opérationnelle. Elle comprend ces étapes :
Mettre en place des métriques de service. Utilisez les métriques du tableau de bord pour superviser les performances à chaque niveau de la gestion des opérations, pour garantir que les services sont conformes aux engagements métier. Les services d’inventaire et de visibilité au sein de la base de référence des opérations sont essentiels. Si vous ne pouvez pas superviser un ensemble de ressources relativement aux engagements métier, considérez que les métriques correspondantes du tableau de bord sont au rouge. La première étape pour y remédier consiste à implémenter le monitoring du service en question. Par exemple, si l’entreprise attend d’un service qu’il fonctionne avec une disponibilité de 99,99 %, mais qu’aucune télémétrie de production n’est en place pour en mesurer la disponibilité, partez du principe que vous ne répondez pas à cette exigence.
Prévoir des mesures de correction. Pour chaque engagement métier pour lequel les métriques tombent sous un seuil acceptable, déterminez l’équipe des opérations appropriée pour procéder à la remédiation nécessaire. Cette équipe est chargée de calculer le coût de la remédiation du service pour amener les opérations à un niveau acceptable. Si le coût de la remédiation du problème est supérieur au budget alloué à ce service, les équipes Informatique centrale/Centre d’excellence cloud doivent examiner le problème avec l’équipe Stratégie cloud pour évaluer les investissements supplémentaires.
Implémenter la correction. Une fois que l’équipe des opérations cloud ou des charges de travail arrive à un accord sur un plan de remédiation, implémentez-le. Signalez l'état de l'implémentation à chaque passage en revue des métriques de tableau de bord.
Ce processus est itératif. L’équipe Informatique centrale/Centre d’excellence cloud est responsable de la gestion du processus et de la production de rapports sur la progression pour l’équipe Stratégie cloud. Des réunions régulières doivent être organisées pour passer en revue les projets de correction existants, lancer le passage en revue fondamental des nouvelles charges de travail et effectuer le suivi de la carte de performance globale de l’entreprise. L’équipe doit aussi avoir l’autorité nécessaire pour rendre responsable les équipes de remédiation (Opérations cloud ou Opérations de charges de travail) s’ils ne respectent pas les métriques ou sont en retard sur la planification.
Réunion de passage en revue
Nous vous recommandons d’évaluer régulièrement votre adéquation opérationnelle. L’équipe Informatique centrale/Centre d’excellence cloud et l’équipe Opérations cloud sont tenues de participer à l’évaluation. Les équipes Stratégie cloud et Charges de travail cloud sont encouragées à y participer, mais elles sont opérationnelles. Par exemple, l’équipe principale peut se réunir à tous les mois pour s’aligner sur les plans et confier la responsabilité aux différentes équipes d’exploitation. Tous les trimestres, l’équipe Stratégie cloud et toutes les équipes Charges de travail peuvent s’y joindre pour comprendre l’état et les métriques.
Adaptez les détails du processus et des réunions à vos besoins spécifiques. Nous recommandons les considérations suivantes comme point de départ :
- Opérations centralisées : les équipes de charge de travail sont peu susceptibles de participer activement au processus, mais elles doivent être incluses dans les rapports pour des raisons de visibilité.
- Opérations décentralisées : l’équipe Opérations cloud doit partager les bonnes pratiques utilisées pour améliorer les opérations des plateformes technologiques avec les équipes de charge de travail. Les équipes de charge de travail doivent partager les modifications apportées à leurs charges de travail respectives pour identifier les améliorations qui pourraient être appliquées aux plateformes technologiques et à la base de référence des opérations.
Ressources recommandées
- Azure Automanage. Azure Automanage supervise automatiquement l’adéquation opérationnelle dans la base de référence des opérations et automatise l’application de différentes stratégies de remédiation dans le portefeuille.
- Azure Advisor. Azure Advisor fournit des recommandations personnalisées en fonction de votre utilisation et de vos configurations pour vous permettre d’optimiser vos ressources. Par défaut, cet outil fournit des recommandations sur un abonnement pour améliorer la base de référence des opérations. Il peut également être utilisé de façon plus précise pour identifier des améliorations pour les plateformes technologiques ou pour des charges de travail individuelles.
- Microsoft Azure Well-Architected Framework : conseils pour améliorer les opérations de charge de travail ou pour guider les opérations décentralisées.