Bewährte Methoden für die proaktive Überwachung für Azure Kubernetes Service (AKS)

Artikel
11/12/2024

Dieser Artikel behandelt die bewährten Methoden für die proaktive Überwachung von Azure Kubernetes Service (AKS) und bietet eine umfassende Liste der wichtigsten Signale, die AKS für die Überwachung empfiehlt.

Die proaktive Überwachung Ihrer AKS-Cluster ist entscheidend, um Ausfallzeiten zu reduzieren und Geschäftsunterbrechungen für Ihre Anwendungen zu vermeiden. Dieser Prozess umfasst das Identifizieren und Überwachen wichtiger Indikatoren für ein ungewöhnliches Verhalten in Ihrem Cluster, die zu großen Problemen oder Ausfallzeiten führen können.

Übersicht über Überwachung und Warnung

Die Überwachung auf AKS umfasst die Verwendung von Metriken, Protokollen und Ereignissen, um die Integrität und Leistung Ihres Clusters sicherzustellen. Häufige Szenarien, die überwacht werden sollen, umfassen die Knotenleistung, den Podstatus und die allgemeine Ressourcenauslastung in Ihrem Cluster. Protokolle bieten Einblicke in Systemereignisse und Clustervorgänge und -aktivitäten. Weitere Informationen zu den Methoden und Signalen, die AKS zur Überwachung bereitstellt, finden Sie unter Überwachen von Azure Kubernetes Service (AKS).

Die beste Möglichkeit Ihr Cluster proaktiv zu überwachen besteht darin, Azure Monitor-Warnungen zu konfigurieren. Warnungen dienen als proaktive Maßnahmen, um Sie über potenzielle Probleme oder Anomalien zu informieren, bevor sie zu kritischen Problemen eskalieren. Indem Sie Schwellenwerte für wichtige Metriken und Protokolle definieren, erhalten Sie sofortige Warnungen, wenn diese Signale die vordefinierten Grenzwerte überschreiten und auf potenzielle Probleme wie Ressourcenausschöpfung oder Anwendungsfehler hinweisen. Es wird dringend empfohlen, Ziele auf Service-Levels (SLOs) für Ihre Anwendung zu definieren, um die Leistung und Zuverlässigkeit Ihres Diensts zu messen. Durch das Konfigurieren von Warnungen zu den wichtigsten Signalen für Ihre SLOs können Sie schnell alle Beeinträchtigungen der Dienstqualität Ihrer Anwendung erkennen, die Ihre Kunden erhalten. Das Festlegen rechtzeitiger Warnungen ermöglicht es Ihnen, Probleme schnell zu untersuchen und zu beheben, Ausfallzeiten zu minimieren und eine hohe Verfügbarkeit von Anwendungen sicherzustellen, die auf Ihrem AKS-Cluster ausgeführt werden.

Konfigurieren von Warnungen für bestimmte Metriktypen

Metriktyp	Wo Sie diese Metriken finden können	Wie Sie Warnungen konfigurieren können
AKS Platform Metric	Zeigen Sie Plattformmetriken über das Blatt Metriken im Azure-Portal an.	Sie können metrische Warnungen über das Azure-Portal erstellen, aktualisieren und löschen. Weitere Informationen finden Sie unter Erstellen einer Metrikwarnung für eine Azure-Ressource.
Azure Managed Prometheus Metric	Um auf Prometheus-Metriken zuzugreifen, müssen Sie Managed Prometheus aktivieren. Ausführliche Informationen zum Aktivieren und Anzeigen von Prometheus-Metriken finden Sie unter Azure Monitor und Prometheus.	Anleitungen zum Konfigurieren von Prometheus-Warnungen finden Sie unter Durch Azure Monitor verwalteter Dienst für Prometheus-Regelgruppen.
Azure-Aktivitätsprotokolle	Anzeigen von Aktivitätsprotokollen über das Azure-Portal. Weitere Informationen finden Sie in Azure-Aktivitätsprotokolle für AKS.	Konfigurieren Sie Warnungen in Aktivitätsprotokollen über das Azure-Portal. Weitere Informationen finden Sie unter Aktivitätsprotokollwarnungen.
Azure Virtual Machine Scale Set Metric	Zeigen Sie die Metriken für Virtual Machine Scale Set über das Azure-Portal an.	1. Navigieren Sie zum Blatt Einstellungen > Eigenschaften für Ihr AKS-Cluster im Azure-Portal, um die Instanz des Virtual Machine Scale Set zu finden, die Ihrem Knotenpool zugeordnet ist. 2. Wählen Sie Ihre Infrastrukturressourcengruppe aus, um die dem Cluster zugeordneten Infrastrukturressourcen anzuzeigen. 3. Wählen Sie die Virtual Machine Scale Set-Instanz aus, die dem Namen Ihres Knotenpools entspricht, für den Sie Warnungen erstellen. 4. Navigieren Sie zum Blatt Warnungen, um Ihre Metrikwarnung zu erstellen.
Load Balancer Metric	Anzeigen von Lastenausgleichsmetriken über die Seite „Load Balancer“ im Azure-Portal.	1. Um die dem Knotenpool zugeordnete Lastenausgleichsinstanz zu finden, navigieren Sie zum Blatt Einstellungen > Eigenschaften für Ihr AKS-Cluster im Azure-Portal. 2. Wählen Sie Ihre Infrastrukturressourcengruppe aus, um die dem Cluster zugeordneten Infrastrukturressourcen anzuzeigen. 3. Wählen Sie die Instanz des Lastenausgleichs aus, um die Azure-Portalseite für das Lastenausgleichsmodul anzuzeigen. 4. Navigieren Sie zur Seite Warnungen, um die Metrik „Lastenausgleich“ zu erstellen.
Protokolle und Ereignisse	Um bei Protokollen und Ereignissen zu warnen, müssen Sie Container Insights aktivieren. Weitere Informationen finden Sie unter Azure Monitor-Ressourcenprotokolle.	Anleitungen zum Erstellen von Warnungen für Protokolle und Ereignisse finden Sie unter Erstellen von Protokollsuchwarnungen aus Container-Insights.

Kritische Signale zum Konfigurieren von Warnungen

Um eine ganzheitliche Abdeckung Ihrer AKS-Umgebung zu erhalten, müssen Sie Warnungen für die drei Hauptkomponenten Ihres Clusters konfigurieren:

Clusterinfrastruktur: Warnungen für die zugrunde liegende Infrastruktur Ihres Clusters, z. B. Knoten, Datenträger und Netzwerk.
Anwendungsintegrität: Warnungen zur Überwachung des Zustands Ihrer Pods und Anwendungen. Einige häufige Indikatoren für fehlerhafte Anwendungen sind Out-of-Memory-Kills (OOMKills) Ihrer Pods, Pods im nicht bereiten Zustand, usw.
Kubernetes-Steuerungsebene: Warnungen auf AKS-Steuerebene, um den Status und die Leistung des API-Servers, etcd und anderer Komponenten zu überwachen.

Die folgenden Abschnitte enthalten die wichtigsten Signale, die alle AKS-Kunden genau überwachen sollten. Das AKS-Team arbeitet daran, alle kritischen Signale zum vorhandenen Feature Empfohlene Warnungen hinzuzufügen, mit dem Sie problemlos Warnungen für alle Signale mit nur einem Klick aktivieren können. Die Prometheus-Metrikwarnungen sind heute in der öffentlichen Vorschau verfügbar und die verbleibenden Warnungen werden voraussichtlich Anfang 2025 verfügbar sein. Jetzt können Sie Benachrichtigungen für die kritischen Signale manuell konfigurieren.

Clusterinfrastrukturwarnungen

Warnungsszenario	Quelle	Signal	Empfohlener Schwellenwert
Der Cluster befindet sich in einem fehlerhaften Zustand	Azure-Aktivitätsprotokolle	Verwalteten Cluster erstellen oder aktualisieren	Der Status des Protokolls ist fehlgeschlagen, was anzeigt, dass die Clusterupgrade- oder Erstellungsaktion fehlgeschlagen ist.
Der Knotenpool befindet sich in einem fehlerhaften Zustand	Azure-Aktivitätsprotokolle	Agentpool erstellen oder aktualisieren	Der Status des Protokolls ist fehlgeschlagen, was anzeigt, dass sich der Knotenpool aufgrund des Fehlschlagens der Vorgänge „Create“, „Read“, „Upgrade“ oder „Delete“ (CRUD) in einem Fehlerzustand befindet.
High Node OS Disk Bandwidth Usage	Virtual Machine Scale Set Metric	Beanspruchte Betriebssystem-Datenträgerbandbreite in Prozent	Die Bandbreitenauslastung des Knotenbetriebssystems liegt über 95 %.
High Node OS Disk IOPS Usage	Virtual Machine Scale Set Metric	Beanspruchte Betriebssystem-Datenträger-IOPS in Prozent	Die IOPS-Auslastung des Node OS-Datenträgers liegt über 95 %.
High Node OS Disk Space Usage	AKS Platform Metric	Datenträgerverwendung (Prozent)	Die Auslastung des Speicherplatzes des Node OS liegt über 90 %.
High Node CPU Usage	AKS Platform Metric	Prozentuale CPU-Auslastung	Die Node CPU-Auslastung ist größer als 90 %.
High Node Memory Usage	AKS Platform Metric	Arbeitssatz für Arbeitsspeicher (Prozent)	Die Node Memory-Auslastung ist größer als 90 %.
Knoten befindet sich im Zustand „NotReady“	AKS Platform Metric	Status für verschiedene Knotenbedingungen	Der Knoten ist >20 Minuten lang im NotReady-Zustand.
SNAT-Portauslastung	Metrik für den Load Balancer (LB)	Anzahl von SNAT-Verbindungen	Filtern nach Verbindungsstatus = „Fehlgeschlagen“

Integritätswarnung für Anwendungen

Warnungsszenario	Quelle	Signal	Empfohlener Schwellenwert
Hohe Anzahl fehlerhafter Pods	Azure Managed Prometheus Metric	Warnungsname: KubePodReadyStateLow	Als empfohlene AKS-Warnung verfügbar. Informationen zum Aktivieren dieser Warnung finden Sie unter Empfohlene Warnungsregeln für Kubernetes-Cluster.
Mindestens ein Pod wird neu gestartet	Azure Managed Prometheus Metric	Warnungsname: KubePodContainerRestart	Als empfohlene AKS-Warnung verfügbar. Informationen zum Aktivieren dieser Warnung finden Sie unter Empfohlene Warnungsregeln für Kubernetes-Cluster.
Mindestens ein Pod befindet sich im CrashLoop-Status	Azure Managed Prometheus Metric	Warnungsname: KubePodCrashLooping	Als empfohlene AKS-Warnung verfügbar. Informationen zum Aktivieren dieser Warnung finden Sie unter Empfohlene Warnungsregeln für Kubernetes-Cluster.

Warnungen der Kubernetes-Steuerungsebene

Warnungsszenario	Quelle	Signal	Empfohlener Schwellenwert
ETCD ist gefüllt	Azure Managed Prometheus Metric	etcd_mvcc_db_total_size_in_use_in_bytes	ETCD-Auslastung ist größer als 2 GB
API-Serverfehler wegen zu vieler Anforderungen	Azure Managed Prometheus Metric	apiserver_request_total	Filtern nach Fehlercode 429
API Server Webhook- und Tunnelfehler	Azure Managed Prometheus Metric	apiserver_request_total	Filtern nach Fehlercodes 500 und 503

Nächste Schritte

Weitere Informationen zur Überwachung in AKS finden Sie in den folgenden Artikeln:

Freigeben über