Gérer des clusters de plateforme d’application moderne

Article
07/11/2023

Le Cloud Adoption Framework fournit une méthodologie de base permettant de définir des processus de gestion des opérations pour le cloud dans un sens agnostique. Ses conseils vous aident à établir une base de référence de la gestion des opérations et d’autres couches d’opérations spécialisées. Ils peuvent toujours s’appliquer aux organisations qui combinent IaaS (Infrastructure as a service), PaaS (Platform as a service) et charges de travail conteneurisées. Cet article décrit ce que vous devez intégrer à vos opérations existantes pour vous préparer à la gestion des conteneurs. Il met également en évidence les avantages de l’intégration d’AKS (Azure Kubernetes Service) à votre stratégie de gestion des conteneurs.

Alignement métier pour les besoins de gestion des opérations

Les conteneurs suppriment les dépendances de plusieurs couches d’infrastructure, ce qui permet d’améliorer les fonctionnalités de gestion des opérations. Pour réaliser ces améliorations opérationnelles, vous devrez peut-être modifier votre stratégie de gestion cloud globale, en commençant par l’alignement métier.

Pour établir les pratiques de gestion des opérations appropriées, vous devez comprendre comment les conteneurs seront utilisés dans vos plans d’adoption du cloud et quels avantages vous souhaitez tirer de ce changement au profit des charges de travail conteneurisées.

Allez-vous gérer plusieurs solutions techniques, telles que les conteneurs, IaaS et PaaS, dans votre plateforme cloud ?
Des équipes centralisées prendront-elles en charge les opérations et la gestion de la plateforme AKS ou du conteneur ? Cette responsabilité est-elle transférée aux équipes de charge de travail individuelles ?
Des équipes centralisées prendront-elles en charge les opérations et la gestion des charges de travail en cours d’exécution dans chaque conteneur ou pod ? Cette responsabilité est-elle transférée aux équipes de charge de travail individuelles ?
Utilisez-vous des conteneurs pour les charges de travail stratégiques ?
Utilisez-vous uniquement des conteneurs pour les charges de travail utilitaires ou moins stratégiques afin de réduire les coûts ?
Quelle est l’importance des performances et de la fiabilité de vos charges de travail individuelles ?
Les applications dans vos conteneurs sont-elles sans état ? Avez-vous besoin de conserver l’état pour protéger et récupérer les charges de travail dans les conteneurs ?

Ces questions élémentaires vous permettront d’intégrer au mieux les conteneurs et AKS à votre stratégie de gestion des opérations.

Ligne de base des opérations

L’implémentation d’une base de référence des opérations fournit un accès centralisé aux outils nécessaires pour exploiter et gérer toutes les ressources dans votre environnement cloud. Si vous ne disposez pas d’une base de référence des opérations pour vos ressources non conteneurisées, vous pouvez implémenter la base de référence des opérations définie dans la méthodologie de gestion.

Votre base de référence des opérations doit inclure des outils et des configurations pour assurer la visibilité, la supervision, la conformité opérationnelle, l’optimisation ainsi que la protection et la récupération.

Base de référence de la gestion des opérations

La base de référence des opérations décrite dans les articles ci-dessus ne prend pas en charge les conteneurs ou la plateforme AKS. Toutefois, elle fournit les outils de base qui peuvent être étendus pour prendre en charge les conteneurs, tels qu’Azure Monitor et Sauvegarde Azure.

Si la majeure partie de votre portefeuille dans le cloud est hébergée dans des conteneurs, envisagez d’inclure les opérations de plateforme spécialisées indiquées dans la section suivante dans votre base de référence des opérations.

Opérations de plateforme

À moins que cette implémentation ne soit le premier ou unique déploiement de votre organisation sur le cloud, vous devez disposer d’une base de référence des opérations. Cette section identifie certains outils que vous pouvez inclure pour faciliter la gestion du déploiement de conteneurs ou d’AKS.

Inventaire et visibilité

La supervision des conteneurs et des clusters AKS utilise les outils, les tableaux de bord et les alertes inclus dans votre base de référence des opérations. Toutefois, vous devrez peut-être effectuer une configuration supplémentaire pour que les données de vos conteneurs soient récupérées dans les outils de supervision des opérations, comme Azure Monitor pour conteneurs. Consultez la vue d’ensemble d’Azure Monitor pour conteneurs afin de collecter les données nécessaires pour ajouter des opérations de plateforme de conteneurs et AKS à votre base de référence des opérations.

Une fois que vous avez configuré Azure Monitor pour collecter les données sur vos conteneurs, vous pouvez superviser les éléments suivants dans le cadre de vos processus de gestion centralisée :

Identifier les clusters en cours d’exécution dans différentes régions, idéalement liés à une entrée de l’arborescence des services et identifier les faits clés sur ces clusters
- Identifier le pool de nœuds de cluster, le réseau et les topologies de stockage de ces clusters
- Identifier la version d’AKS et la stratification des versions d’image de nœud
Identifier l’utilisation des ressources des nœuds de cluster (processus, mémoire et stockage)
Identifier les conteneurs en cours d’exécution sur les nœuds et leur contribution à l’utilisation des nœuds
Comprendre le comportement des clusters quand ils subissent des charges moyennes et très importantes. Cette information peut vous aider à identifier les besoins en capacité et à déterminer la charge maximale que le cluster peut supporter.
Configurer des alertes pour vous avertir de manière proactive quand l’utilisation du processeur et de la mémoire sur des nœuds ou des conteneurs dépasse vos seuils ou qu’un changement d’état d’intégrité se produit dans le cluster au niveau de l’infrastructure ou du cumul d’intégrité des nœuds ou enregistrer ces événements.
Utiliser des requêtes pour créer un ensemble commun d’alertes, de tableaux de bord et une analyse détaillée des performances

Ces données prennent également en charge les équipes d’opérations de charge de travail en fournissant des informations détaillées sur les charges de travail en cours d’exécution sur la plateforme conteneurisée :

Voir la quantité de ressources utilisée par les charges de travail qui sont exécutées sur l’hôte et qui ne sont pas liées aux processus standard nécessaires à la prise en charge du pod
Effectuer une intégration à Prometheus pour voir les métriques des applications.
Surveiller les charges de travail de conteneur déployées sur le moteur AKS local et le moteur AKS sur Azure Stack.
Surveiller les charges de travail de conteneur déployées sur Azure Red Hat OpenShift.
Surveiller les charges de travail de conteneur déployées sur Kubernetes avec Azure Arc activé (préversion).

Conformité des opérations

La mise à jour corrective, le paramétrage et le dimensionnement se produisent à différents niveaux dans un environnement conteneurisé. Les opérateurs peuvent se trouver dans plusieurs équipes, selon l’approche que vous souhaitez pour les opérations. Pour assurer la conformité des opérations, un opérateur supervise l’utilisation, redimensionne les ressources pour équilibrer les performances et les coûts et corrige les systèmes sous-jacents pour réduire les risques et les dérives de configuration. Les organisations informatiques centrales ont tendance à fournir ces tâches dans le cadre de la base de référence des opérations pour les solutions IaaS et PaaS.

Dans un environnement de cluster au sein d’Azure, ces tâches sont effectuées à plusieurs niveaux : cluster AKS, image de nœud et système d’exploitation de nœud. Toutes ces tâches d’opérations deviennent plus dépendantes d’une relation de compréhension et de fonctionnement des charges de travail en cours d’exécution dans les clusters ou sur des pools de nœuds individuels. Les affirmations suivantes vous aideront à évaluer ce que vous devez faire pour exploiter vos environnements de conteneur et si vous souhaitez le faire.

Si le dimensionnement et la mise à jour corrective du cluster AKS, de l’image du nœud ou du système d’exploitation du nœud sont fournis dans le cadre du pipeline de déploiement de l’application ou dépendent de l’architecture ou de la configuration de l’application, il est préférable de placer la conformité opérationnelle sous la responsabilité de l’équipe de charge de travail pour un contrôle précis. Étant donné que les charges de travail dépendent souvent de fonctionnalités d’orchestration, il s’agit du modèle le plus courant, car un changement de version d’AKS ou d’image de nœud inattendu peut être catastrophique pour la charge de travail ou ses outils d’exécution.
Pour les clusters centralisés moins courants, prenant en charge un portefeuille de charges de travail et diverses applications, l’équipe des opérations centralisée peut toujours être responsable des tâches de conformité opérationnelles ; les guides suivants vous aideront à fournir ces tâches à travers vos clusters. L’exécution régulière de ces tâches instille des opérations propres à la plateforme. En raison d’un risque notable que présente une approche centrale des opérations, il est nécessaire de mettre en œuvre un test minutieux des mises à niveau dans les environnements de préproduction, une maintenance planifiée claire et respectée ainsi que des plans d’urgence pour les charges de travail non conformes. Une mise à niveau incorrecte peut être un point de défaillance unique et, de même, une charge de travail qui ne peut pas être mise à niveau peut entraîner la non-prise en charge d’un cluster. Planifiez et gérez des clusters multilocataires avec la diligence nécessaire.

Pour les deux types de clusters, suivez les instructions suivantes sur les mises à niveau, les images de nœud et les mises à jour de système d’exploitation de nœuds :

Protection et récupération

Les nœuds AKS étant éphémères par nature, ils ne sont pas sauvegardés de manière à pouvoir être restaurés individuellement. La récupération d’un incident peut impliquer le redéploiement de charges de travail sur un nouveau pool de nœuds ou sur un nouveau cluster en fonction de l’étendue de l’incident.

Choisissez d’ajouter un contrat SLA de durée de bon fonctionnement à votre cluster.
Pour les SLA plus élevés, vous pouvez également envisager les bonnes pratiques de BCDR multirégion afin de fournir une protection supplémentaire.
Étant donné que les clusters ne doivent pas contenir d’état, la restauration de l’état externe est gérée au moyen de recommandations existantes sur la base de référence des opérations. Si vous avez intégré l’état à vos clusters, veillez à suivre les bonnes pratiques des opérateurs sur le stockage et à disposer d’une stratégie de sauvegarde et de restauration de ces données pour une charge de travail spécifique. L’utilisation d’outils comme Velero est un exemple d’opérations propres à la plateforme, qui étendent votre base de référence des opérations.
- Si votre portefeuille d’applications applique l’état de façon incohérente, l’équipe centrale des opérations ne devrait pas essayer de maintenir les deux solutions. Au lieu de cela, standardisez la chaîne d’outils de l’état souhaité pour tous les conteneurs, mais confiez la responsabilité des solutions de récupération alternatives aux équipes des opérations de charge de travail. Cette approche apporte aux développeurs une certaine liberté de conception, réduit les coûts centraux et incite les équipes de charge de travail à se conformer au standard à moindre coûts.

Opérations de charge de travail

La section Opérations de plateforme ci-dessus illustre une conversation courante lors de la gestion de clusters AKS. Les clusters Kubernetes sont-ils une plateforme technologique à gérer de manière centralisée ? Ou s’agit-il d’un outil de charge de travail que doivent gérer les équipes qui détiennent chacune des charges de travail ? Cette question diffère d’une organisation à l’autre. La constante observée dans la plupart des organisations est que les conteneurs et AKS sont conçus pour donner aux équipes de charge de travail une plus grande flexibilité dans la façon dont elles veulent utiliser chaque charge de travail et pour fournir des fonctionnalités spécifiques destinées à être utilisées dans l’architecture de ces charges de travail au profit des clients et des propriétaires de l’application.

Les opérations de charge de travail peuvent reposer sur votre base de référence des opérations et vos opérations propres à la plateforme. Vous pouvez également exploiter un cluster AKS de manière sécurisée en utilisant des opérations de charge de travail complètement décentralisées. Dans les deux cas, quand vous devez personnaliser des opérations afin de vous concentrer sur des résultats spécifiques pour une charge de travail donnée, vous pouvez utiliser Azure Well-Architected Framework et Microsoft Azure Well-Architected Review afin d’obtenir des détails sur les types de processus et outils opérationnels à utiliser pour votre charge de travail.

Étape suivante : Votre itération de migration suivante

Une fois la migration de plateforme d’application moderne terminée, l’équipe chargée de l’adoption du cloud peut commencer la migration suivante, propre à votre scénario. Ou bien, si d’autres plateformes doivent être migrées, vous pouvez vous appuyer sur cette série d’articles pour guider votre prochaine migration ou votre prochain déploiement de plateforme d’application moderne.

Partager via