Bewährte Methoden für die proaktive Überwachung für Azure Kubernetes Service (AKS)
Dieser Artikel behandelt die bewährten Methoden für die proaktive Überwachung von Azure Kubernetes Service (AKS) und bietet eine umfassende Liste der wichtigsten Signale, die AKS für die Überwachung empfiehlt.
Die proaktive Überwachung Ihrer AKS-Cluster ist entscheidend, um Ausfallzeiten zu reduzieren und Geschäftsunterbrechungen für Ihre Anwendungen zu vermeiden. Dieser Prozess umfasst das Identifizieren und Überwachen wichtiger Indikatoren für ein ungewöhnliches Verhalten in Ihrem Cluster, die zu großen Problemen oder Ausfallzeiten führen können.
Übersicht über Überwachung und Warnung
Die Überwachung auf AKS umfasst die Verwendung von Metriken, Protokollen und Ereignissen, um die Integrität und Leistung Ihres Clusters sicherzustellen. Häufige Szenarien, die überwacht werden sollen, umfassen die Knotenleistung, den Podstatus und die allgemeine Ressourcenauslastung in Ihrem Cluster. Protokolle bieten Einblicke in Systemereignisse und Clustervorgänge und -aktivitäten. Weitere Informationen zu den Methoden und Signalen, die AKS zur Überwachung bereitstellt, finden Sie unter Überwachen von Azure Kubernetes Service (AKS).
Die beste Möglichkeit Ihr Cluster proaktiv zu überwachen besteht darin, Azure Monitor-Warnungen zu konfigurieren. Warnungen dienen als proaktive Maßnahmen, um Sie über potenzielle Probleme oder Anomalien zu informieren, bevor sie zu kritischen Problemen eskalieren. Indem Sie Schwellenwerte für wichtige Metriken und Protokolle definieren, erhalten Sie sofortige Warnungen, wenn diese Signale die vordefinierten Grenzwerte überschreiten und auf potenzielle Probleme wie Ressourcenausschöpfung oder Anwendungsfehler hinweisen. Es wird dringend empfohlen, Ziele auf Service-Levels (SLOs) für Ihre Anwendung zu definieren, um die Leistung und Zuverlässigkeit Ihres Diensts zu messen. Durch das Konfigurieren von Warnungen zu den wichtigsten Signalen für Ihre SLOs können Sie schnell alle Beeinträchtigungen der Dienstqualität Ihrer Anwendung erkennen, die Ihre Kunden erhalten. Das Festlegen rechtzeitiger Warnungen ermöglicht es Ihnen, Probleme schnell zu untersuchen und zu beheben, Ausfallzeiten zu minimieren und eine hohe Verfügbarkeit von Anwendungen sicherzustellen, die auf Ihrem AKS-Cluster ausgeführt werden.
Konfigurieren von Warnungen für bestimmte Metriktypen
Metriktyp | Wo Sie diese Metriken finden können | Wie Sie Warnungen konfigurieren können |
---|---|---|
AKS Platform Metric | Zeigen Sie Plattformmetriken über das Blatt Metriken im Azure-Portal an. | Sie können metrische Warnungen über das Azure-Portal erstellen, aktualisieren und löschen. Weitere Informationen finden Sie unter Erstellen einer Metrikwarnung für eine Azure-Ressource. |
Azure Managed Prometheus Metric | Um auf Prometheus-Metriken zuzugreifen, müssen Sie Managed Prometheus aktivieren. Ausführliche Informationen zum Aktivieren und Anzeigen von Prometheus-Metriken finden Sie unter Azure Monitor und Prometheus. | Anleitungen zum Konfigurieren von Prometheus-Warnungen finden Sie unter Durch Azure Monitor verwalteter Dienst für Prometheus-Regelgruppen. |
Azure-Aktivitätsprotokolle | Anzeigen von Aktivitätsprotokollen über das Azure-Portal. Weitere Informationen finden Sie in Azure-Aktivitätsprotokolle für AKS. | Konfigurieren Sie Warnungen in Aktivitätsprotokollen über das Azure-Portal. Weitere Informationen finden Sie unter Aktivitätsprotokollwarnungen. |
Azure Virtual Machine Scale Set Metric | Zeigen Sie die Metriken für Virtual Machine Scale Set über das Azure-Portal an. | 1. Navigieren Sie zum Blatt Einstellungen > Eigenschaften für Ihr AKS-Cluster im Azure-Portal, um die Instanz des Virtual Machine Scale Set zu finden, die Ihrem Knotenpool zugeordnet ist. 2. Wählen Sie Ihre Infrastrukturressourcengruppe aus, um die dem Cluster zugeordneten Infrastrukturressourcen anzuzeigen. 3. Wählen Sie die Virtual Machine Scale Set-Instanz aus, die dem Namen Ihres Knotenpools entspricht, für den Sie Warnungen erstellen. 4. Navigieren Sie zum Blatt Warnungen, um Ihre Metrikwarnung zu erstellen. |
Load Balancer Metric | Anzeigen von Lastenausgleichsmetriken über die Seite „Load Balancer“ im Azure-Portal. | 1. Um die dem Knotenpool zugeordnete Lastenausgleichsinstanz zu finden, navigieren Sie zum Blatt Einstellungen > Eigenschaften für Ihr AKS-Cluster im Azure-Portal. 2. Wählen Sie Ihre Infrastrukturressourcengruppe aus, um die dem Cluster zugeordneten Infrastrukturressourcen anzuzeigen. 3. Wählen Sie die Instanz des Lastenausgleichs aus, um die Azure-Portalseite für das Lastenausgleichsmodul anzuzeigen. 4. Navigieren Sie zur Seite Warnungen, um die Metrik „Lastenausgleich“ zu erstellen. |
Protokolle und Ereignisse | Um bei Protokollen und Ereignissen zu warnen, müssen Sie Container Insights aktivieren. Weitere Informationen finden Sie unter Azure Monitor-Ressourcenprotokolle. | Anleitungen zum Erstellen von Warnungen für Protokolle und Ereignisse finden Sie unter Erstellen von Protokollsuchwarnungen aus Container-Insights. |
Kritische Signale zum Konfigurieren von Warnungen
Um eine ganzheitliche Abdeckung Ihrer AKS-Umgebung zu erhalten, müssen Sie Warnungen für die drei Hauptkomponenten Ihres Clusters konfigurieren:
- Clusterinfrastruktur: Warnungen für die zugrunde liegende Infrastruktur Ihres Clusters, z. B. Knoten, Datenträger und Netzwerk.
- Anwendungsintegrität: Warnungen zur Überwachung des Zustands Ihrer Pods und Anwendungen. Einige häufige Indikatoren für fehlerhafte Anwendungen sind Out-of-Memory-Kills (OOMKills) Ihrer Pods, Pods im nicht bereiten Zustand, usw.
- Kubernetes-Steuerungsebene: Warnungen auf AKS-Steuerebene, um den Status und die Leistung des API-Servers, etcd und anderer Komponenten zu überwachen.
Die folgenden Abschnitte enthalten die wichtigsten Signale, die alle AKS-Kunden genau überwachen sollten. Das AKS-Team arbeitet daran, alle kritischen Signale zum vorhandenen Feature Empfohlene Warnungen hinzuzufügen, mit dem Sie problemlos Warnungen für alle Signale mit nur einem Klick aktivieren können. Die Prometheus-Metrikwarnungen sind heute in der öffentlichen Vorschau verfügbar und die verbleibenden Warnungen werden voraussichtlich Anfang 2025 verfügbar sein. Jetzt können Sie Benachrichtigungen für die kritischen Signale manuell konfigurieren.
Clusterinfrastrukturwarnungen
Warnungsszenario | Quelle | Signal | Empfohlener Schwellenwert |
---|---|---|---|
Der Cluster befindet sich in einem fehlerhaften Zustand | Azure-Aktivitätsprotokolle | Verwalteten Cluster erstellen oder aktualisieren | Der Status des Protokolls ist fehlgeschlagen, was anzeigt, dass die Clusterupgrade- oder Erstellungsaktion fehlgeschlagen ist. |
Der Knotenpool befindet sich in einem fehlerhaften Zustand | Azure-Aktivitätsprotokolle | Agentpool erstellen oder aktualisieren | Der Status des Protokolls ist fehlgeschlagen, was anzeigt, dass sich der Knotenpool aufgrund des Fehlschlagens der Vorgänge „Create“, „Read“, „Upgrade“ oder „Delete“ (CRUD) in einem Fehlerzustand befindet. |
High Node OS Disk Bandwidth Usage | Virtual Machine Scale Set Metric | Beanspruchte Betriebssystem-Datenträgerbandbreite in Prozent | Die Bandbreitenauslastung des Knotenbetriebssystems liegt über 95 %. |
High Node OS Disk IOPS Usage | Virtual Machine Scale Set Metric | Beanspruchte Betriebssystem-Datenträger-IOPS in Prozent | Die IOPS-Auslastung des Node OS-Datenträgers liegt über 95 %. |
High Node OS Disk Space Usage | AKS Platform Metric | Datenträgerverwendung (Prozent) | Die Auslastung des Speicherplatzes des Node OS liegt über 90 %. |
High Node CPU Usage | AKS Platform Metric | Prozentuale CPU-Auslastung | Die Node CPU-Auslastung ist größer als 90 %. |
High Node Memory Usage | AKS Platform Metric | Arbeitssatz für Arbeitsspeicher (Prozent) | Die Node Memory-Auslastung ist größer als 90 %. |
Knoten befindet sich im Zustand „NotReady“ | AKS Platform Metric | Status für verschiedene Knotenbedingungen | Der Knoten ist >20 Minuten lang im NotReady-Zustand. |
SNAT-Portauslastung | Metrik für den Load Balancer (LB) | Anzahl von SNAT-Verbindungen | Filtern nach Verbindungsstatus = „Fehlgeschlagen“ |
Integritätswarnung für Anwendungen
Warnungsszenario | Quelle | Signal | Empfohlener Schwellenwert |
---|---|---|---|
Hohe Anzahl fehlerhafter Pods | Azure Managed Prometheus Metric | Warnungsname: KubePodReadyStateLow | Als empfohlene AKS-Warnung verfügbar. Informationen zum Aktivieren dieser Warnung finden Sie unter Empfohlene Warnungsregeln für Kubernetes-Cluster. |
Mindestens ein Pod wird neu gestartet | Azure Managed Prometheus Metric | Warnungsname: KubePodContainerRestart | Als empfohlene AKS-Warnung verfügbar. Informationen zum Aktivieren dieser Warnung finden Sie unter Empfohlene Warnungsregeln für Kubernetes-Cluster. |
Mindestens ein Pod befindet sich im CrashLoop-Status | Azure Managed Prometheus Metric | Warnungsname: KubePodCrashLooping | Als empfohlene AKS-Warnung verfügbar. Informationen zum Aktivieren dieser Warnung finden Sie unter Empfohlene Warnungsregeln für Kubernetes-Cluster. |
Warnungen der Kubernetes-Steuerungsebene
Warnungsszenario | Quelle | Signal | Empfohlener Schwellenwert |
---|---|---|---|
ETCD ist gefüllt | Azure Managed Prometheus Metric | etcd_mvcc_db_total_size_in_use_in_bytes | ETCD-Auslastung ist größer als 2 GB |
API-Serverfehler wegen zu vieler Anforderungen | Azure Managed Prometheus Metric | apiserver_request_total | Filtern nach Fehlercode 429 |
API Server Webhook- und Tunnelfehler | Azure Managed Prometheus Metric | apiserver_request_total | Filtern nach Fehlercodes 500 und 503 |
Nächste Schritte
Weitere Informationen zur Überwachung in AKS finden Sie in den folgenden Artikeln:
Azure Kubernetes Service