Meilleures pratiques de surveillance proactive d’un cluster Azure Kubernetes Service (AKS)

Article
11/12/2024

Cet article décrit les meilleures pratiques de surveillance proactive d’un cluster Azure Kubernetes Service (AKS) et fournit une liste complète des signaux clés à surveiller recommandés par AKS.

Une surveillance proactive de vos clusters AKS est essentielle pour réduire les temps d’arrêt et éviter des interruptions d’activité de vos applications. Ce processus implique l’identification et la surveillance des indicateurs clés d’un comportement anormal de votre cluster pouvant entraîner des problèmes majeurs ou des temps d’arrêt.

Vue d’ensemble de la surveillance et de la génération d’alerte

La surveillance par AKS implique l’utilisation de mesures, de journaux et d’événements pour garantir l’intégrité et le niveau de performance de votre cluster. Le niveau de performance des nœuds, l’état des pods et l’utilisation globale des ressources de votre cluster comptent parmi les scénarios courants à surveiller. Les journaux fournissent des aperçus des événements système, ainsi que des opérations et de l’activité du cluster. Pour plus d’informations sur les méthodes et signaux fournis par AKS pour la surveillance, consultez Surveiller Azure Kubernetes Service (AKS).

La meilleure façon de surveiller de manière proactive votre cluster consiste à configurer des alertes Azure Monitor. Les alertes agissent comme des mesures proactives qui vous informent des problèmes ou anomalies potentiels avant que ceux-ci ne se transforment en problèmes critiques. En définissant des seuils pour les mesures et les journaux clés, vous recevez des alertes immédiates quand ces signaux dépassent les limites prédéfinies, ce qui indique des problèmes potentiels tels qu’un épuisement des ressources ou des échecs d’application. Nous vous recommandons vivement de définir les objectifs de niveau de service (SLO) de votre application pour mesurer le niveau de performance et la fiabilité de votre service. La configuration d’alertes sur les signaux clés de vos SLO vous permet de détecter rapidement toute dégradation de la qualité de service de votre application que vos clients subissent. Dans l’ensemble, la définition d’alertes en temps opportun vous permet d’étudier et de corriger rapidement les problèmes, de réduire les temps d’arrêt et de garantir une haute disponibilité des applications s’exécutant sur votre cluster AKS.

Configuration d’alertes sur des types de mesures spécifiques

Type de mesure	Où trouver ces mesures	Configuration d’alertes
Mesure de la plateforme AKS	Affichez les mesures de la plateforme via le panneau Mesures dans le portail Azure.	Vous pouvez créer, mettre à jour et supprimer des alertes de mesure via le portail Azure. Pour plus d’informations, consultez Créer une alerte de métrique pour une ressource Azure.
Mesure Prometheus managé par Azure	Pour accéder aux mesures Prometheus, vous devez activer Prometheus managé. Pour plus de détails sur l’activation et l’affichage des mesures Prometheus, consultez Azure Monitor et Prometheus.	Pour obtenir une aide à la configuration d’alertes Prometheus, consultez Service managé Azure Monitor pour les groupes de règles Prometheus.
Journaux d’activité Azure	Affichez les journaux d’activité via le portail Azure. Pour plus d’informations, consultez Journaux d’activité Azure pour AKS.	Configurez des alertes sur les journaux d’activité via le portail Azure. Pour plus d’informations, consultez Alertes du journal d'activité.
Mesure d’un groupe de machines virtuelles identiques Azure	Afficher les mesures d’un groupe de machines virtuelles identiques via le portail Azure.	1. Pour rechercher l’instance de groupe de machines virtuelles identiques associée à votre pool de nœuds, accédez au panneau Paramètres > Propriétés de votre cluster AKS dans le portail Azure. 2. Sélectionnez votre groupe de ressources d’infrastructure pour afficher les ressources d’infrastructure associées à votre cluster. 3. Sélectionnez l’instance de groupe de machines virtuelles identiques qui correspond au nom du pool de nœuds pour lequel vous créez des alertes. 4. Accédez au panneau Alertes pour créer votre alerte de mesure.
Mesures Load Balancer	Affichez les mesures de l’équilibreur de charge via la page Load Balancer dans le portail Azure.	1. Pour rechercher l’instance d’équilibreur de charge associée à votre pool de nœuds, accédez au panneau Paramètres > Propriétés de votre cluster AKS dans le portail Azure. 2. Sélectionnez votre groupe de ressources d’infrastructure pour afficher les ressources d’infrastructure associées à votre cluster. 3. Sélectionnez l’instance d’équilibreur de charge pour afficher la page du portail Azure de l’équilibreur de charge. 4. Accédez à la page Alertes pour créer votre alerte de mesure d’équilibreur de charge.
Journaux et événements	Pour alerter sur des journaux et événements, vous devez activer Container Insights. Pour plus d’informations, consultez Journaux de ressources Azure Monitor.	Pour obtenir une aide à la création d’alertes sur des journaux et événements, consultez Créer des alertes de recherche dans les journaux à partir de Container Insights.

Signaux critiques pour la configuration d’alertes

Pour obtenir une couverture globale de votre environnement AKS, vous devez configurer des alertes sur les trois composants principaux de votre cluster :

Infrastructure de cluster : alertes ciblant l’infrastructure sous-jacente de votre cluster, telles que les nœuds, les disques et les réseaux.
Intégrité de l’application : alertes de surveillance de l’intégrité de vos pods et de vos applications. Les arrêts de vos pods par dépassement de mémoire (OOMKill), les pods en état non prêt, etc. comptent parmi certains indicateurs courants d’applications non saines.
Plan de contrôle Kubernetes : alertes sur le plan de contrôle du cluster AKS pour surveiller l’intégrité et le niveau de performance du serveur API, de l’etcd et d’autres composants.

Les sections suivantes contiennent les signaux clés que nous recommandons de surveiller étroitement à tous les clients AKS. L’équipe AKS travaille à l’ajout de tous les signaux critiques à la fonctionnalité existante Alertes recommandées, ce qui vous permet d’activer facilement les alertes de tous les signaux en un seul clic. Les alertes de mesures Prometheus sont actuellement disponibles en préversion publique, les autres alertes devraient être disponibles début 2025. Pour l’instant, vous pouvez configurer des alertes sur les signaux critiques manuellement.

Alertes d’infrastructure de cluster

Scénario d’alerte	Source	Signal	Seuil recommandé
Le cluster est en état d'échec	Journaux d’activité Azure	Créer ou mettre à jour le cluster managé	L’état du journal indique Échec, ce qui signifie que l’action de mise à niveau ou de création du cluster a échoué.
Le pool de nœud est en état d’échec	Journaux d’activité Azure	Créer ou mettre à jour un pool d’agents	L’état du journal indique Échec, ce qui signifie que le pool de nœuds est en état d’échec en raison d’une opération de création, lecture, mise à jour ou suppression (CRUD) ayant échoué.
Utilisation élevée de la bande passante du disque du système d’exploitation du nœud	Mesure du groupe de machines virtuelles identiques	Pourcentage de bande passante du disque de système d’exploitation consommée	L’utilisation de la bande passante du disque du système d’exploitation du nœud est supérieure à 95 %.
Utilisation élevée des IOPS du disque du système d’exploitation du nœud	Mesure du groupe de machines virtuelles identiques	Pourcentage d’IOPS du disque de système d’exploitation consommées	L’utilisation des IOPS du disque du système d’exploitation du nœud est supérieure à 95 %.
Utilisation élevée de l’espace disque du système d’exploitation du nœud	Mesure de la plateforme AKS	Pourcentage d’utilisation du disque	Le pourcentage d’utilisation de l’espace disque du système d’exploitation du nœud est supérieur à 90 %.
Utilisation élevée du processeur du nœud	Mesure de la plateforme AKS	Pourcentage d’utilisation du processeur	L’utilisation du processeur du nœud est supérieure à 90 %.
Utilisation élevée de la mémoire du nœud	Mesure de la plateforme AKS	Mémoire de plage de travail en pourcentage	L’utilisation de la mémoire du nœud est supérieure à 90 %.
Le nœud est en état Non prêt	Mesure de la plateforme AKS	États des différentes conditions de nœud	Le nœud est en état Non prêt depuis > 20 minutes.
Insuffisance de ports SNAT	Mesure Load Balancer (LB)	Nombre de connexions SNAT	Filtre de l’état de connexion = « Échec »

Alertes sur l'intégrité de l’application

Scénario d’alerte	Source	Signal	Seuil recommandé
Nombre élevé de pods non sains	Mesure Prometheus managé par Azure	Nom d’alerte : KubePodReadyStateLow	Disponible comme alerte recommandée par AKS. Pour activer cette alerte, consultez Règles d’alerte recommandées pour des clusters Kubernetes.
Un ou plusieurs pods redémarrent	Mesure Prometheus managé par Azure	Nom d’alerte : KubePodContainerRestart	Disponible comme alerte recommandée par AKS. Pour activer cette alerte, consultez Règles d’alerte recommandées pour des clusters Kubernetes.
Un ou plusieurs pods sont en état CrashLoop	Mesure Prometheus managé par Azure	Nom d’alerte : KubePodCrashLooping	Disponible comme alerte recommandée par AKS. Pour activer cette alerte, consultez Règles d’alerte recommandées pour des clusters Kubernetes.

Alertes du plan de contrôle Kubernetes

Scénario d’alerte	Source	Signal	Seuil recommandé
L’etcd est rempli	Mesure Prometheus managé par Azure	etcd_mvcc_db_total_size_in_use_in_bytes	L'utilisation de l’etcd est supérieure ou égale à 2 Go
Erreurs du serveur d’API Trop de demandes	Mesure Prometheus managé par Azure	apiserver_request_total	Filtre pour le code d’erreur 429
Erreurs du serveur d’API Webhook et tunnel	Mesure Prometheus managé par Azure	apiserver_request_total	Filtre pour les codes d’erreur 500 et 503

Étapes suivantes

Pour plus d’informations sur la surveillance sur AKS, consultez les articles suivants :

Partager via