Freigeben über


Empfehlungen zum Reagieren auf Live-Performance-Probleme

Gilt für diese Power Platform Well-Architected Performance Efficiency-Checkliste-Empfehlung:

PE:09 Reagieren Sie auf Live-Performance-Probleme. Planen Sie, wie Sie Leistungsprobleme angehen, indem Sie klare Kommunikationswege und Verantwortlichkeiten integrieren. Wenn eine problematische Situation auftritt, nutzen Sie das Gelernte, um vorbeugende Maßnahmen zu ermitteln und diese in Ihre Arbeitsbelastung zu integrieren. Implementieren Sie Methoden, um beim Auftreten ähnlicher Situationen schneller zum Normalbetrieb zurückzukehren.

Dieses Anleitung beschreibt die Best Practices zum Reagieren auf Live-Leistungsprobleme. Bei Live-Leistungsproblemen handelt es sich um Herausforderungen und Engpässe in Echtzeit, die die optimale Funktion einer Arbeitslast beeinträchtigen können. Durch die umgehende Behebung dieser Probleme können Leistungseinbußen nicht nur leichter erkannt und behoben werden, sondern es wird auch sichergestellt, dass die Arbeitslast die Leistungsbenchmarks stets erfüllt. Werden diese Probleme nicht behoben, kann es zu Komplikationen wie Verlangsamungen, Abstürzen und Systemaussetzern kommen und das Benutzererlebnis beeinträchtigen. Sie können Benutzer außerdem daran hindern, ihre Aufgaben effizient zu erledigen und so wiederum den Ruf des Unternehmens schädigen.

Definitionen

Begriff Definition
Datenkorrelation Angleichen von Protokollen, Metriken und Ereignissen aus verschiedenen Teilen Ihrer Arbeitslast, um die zugrunde liegenden Ursachen zu ermitteln.
Ursachenanalyse Ein Prozess zur Identifizierung der zugrunde liegenden Faktoren, die für ein Problem verantwortlich sind.
Selbstheilung Die Fähigkeit, Probleme ohne menschliches Eingreifen automatisch zu beheben.
Selbstprävention Implementierungen innerhalb einer Arbeitslast, um potenzielle Probleme und Fehler zu verhindern.

Wichtige Designstrategien

Wenn bei Ihnen ein Live-Performance-Problem auftritt, müssen Sie über die richtigen Daten und einen Plan zur Behebung des Problems verfügen. Dieser Plan sollte klare Kommunikationswege und Verantwortlichkeiten beinhalten. Das Hauptziel besteht darin, festzustellen, ob die Leistungsprobleme vorübergehend oder isoliert sind, die Grundursache des Leistungsproblems zu ermitteln und Lösungen zu implementieren, die eine schnelle Rückkehr zum Normalbetrieb ermöglichen und Erkenntnisse aus dem Vorfall liefern. Die Integration präventiver Maßnahmen in Ihren Arbeitsablauf ist eine zentrale Strategie. Das Ziel besteht darin, entweder ein erneutes Auftreten des gleichen Problems zu verhindern oder seine Auswirkungen auf die Leistung zu verringern, wenn dies nicht vermeidbar ist.

Auf Probleme vorbereiten

Das ideale Antwort für Live-Site-Leistungsprobleme ist präzise und schnell. Präzision und Geschwindigkeit bei der Leistungsverbesserung erfordern Vorbereitung. Um effektiv auf Live-Leistungsprobleme reagieren zu können, ist es wichtig, die wichtigsten Leistungsmesswerte zu überwachen, die Grundursache der Probleme zu ermitteln und entsprechende Lösungen oder Optimierungen zu implementieren. Um diese Schritte auszuführen, müssen Sie möglicherweise Arbeitslastprotokolle analysieren, Leistungstests durchführen und Code oder Konfigurationen optimieren.

Die folgenden Beispiele skizzieren einige kritische Vorbereitungsbereiche:

  • Verfügen Sie über genaue Architekturdiagramme. Ihre Architekturdiagramme sollten alle Komponenten enthalten und zeigen, wie sie interagieren. Durch eine visuelle Darstellung können Engpässe und einzelne Fehlerquellen identifiziert werden, die zu Leistungseinbußen oder Nichtverfügbarkeit führen können. Im Idealfall erkennen und beheben Sie diese Probleme, bevor sie zu Problemen führen. Ein aktuelles Diagramm kann Ihnen jedoch dabei helfen, Probleme in besonders stressigen Momenten zu lokalisieren.

  • Datenzugriff prüfen. Daten und Protokolle aus Überwachungsprozessen sind von entscheidender Bedeutung, um in Echtzeit auf Leistungsprobleme zu reagieren und Ursachenanalysen durchzuführen. Dabei ist es jedoch wichtig, die Integrität und Vertraulichkeit der Daten zu wahren. Zum Reagieren auf Leistungsprobleme einer Live-Site ist häufig der Zugriff auf zugrunde liegende Daten erforderlich, auf die normalerweise nicht zugegriffen werden kann. Sie müssen sicherstellen, dass das Personal bei auftretenden Problemen Zugriff auf die benötigten Daten hat. Sie sollten jedoch nur zeitlich begrenzten Zugriff mit den geringsten Berechtigungen gewähren und diesen Zugriff auf autorisiertes Personal beschränken.

  • Richten Sie automatische Alarme ein. Mithilfe von Warnungen können Sie Probleme erkennen und beheben, sobald sie auftreten. Warnungen sollten Benachrichtigungen generieren, wenn die Workload-Leistung von den Leistungsbaselines abweicht. Mit der Zeit sollten Sie die Alarmkonfigurationen optimieren, um zu vermeiden, dass zu viele oder zu wenige Benachrichtigungen generiert werden. Die von Ihnen verwendeten Überwachungslösungen müssen genügend Daten erfassen, um Warnungen zu generieren. Diese Warnungen sollten ausrichten mit Leistungszielen und festgelegten Baselines sein. Sie sollten es vermeiden, Warnungen zu Problemen zu generieren, die für Ihre Ziele nicht relevant sind. Beispiele für Warnungen sind Verschlechterungen der Antwort-Zeiten, der Leistung von Dataverse API-Aufrufen oder Plug-Ins und des Seitenladens.

Erstellen Sie einen Triageplan

Das Erstellen eines Triage-Plans umfasst die Entwicklung eines strukturierten Ansatzes zur Identifizierung, Eskalation, Analyse, Priorisierung und Kommunikation von Live-Site-Leistungsproblemen. Ein Triage-Plan ist eine Strategie zum Reagieren auf Probleme bei der Live-Performance. Es stellt sicher, dass Leistungsstörungen umgehend und effektiv behoben werden, mit klaren Rollen und Verfahren. Die meisten Leistungsprobleme erfordern keine Notfallwiederherstellungsprotokolle, sie können die Workload-Funktionalität jedoch so stark beeinträchtigen, dass eine Triage-Planung erforderlich ist. Ein gut dokumentierter Triage-Plan stellt sicher, dass alle Teammitglieder auf einer Linie sind und schnell handeln können, wodurch die Auswirkungen auf Benutzer und Arbeitslasten minimiert werden. Ein Triageplan sollte die folgenden Komponenten enthalten:

  • Identifizierung und Überwachung: Implementieren Sie ein System zur Identifizierung und Überwachung von Leistungsproblemen in Echtzeit. Sie sollten über eine Liste mit den Kontaktdaten der Personen verfügen, die Entscheidungen treffen oder Probleme an eine höhere Ebene weiterleiten können. Der Plan sollte auch Rollen und Verantwortlichkeiten festlegen. Es muss dokumentiert werden, welche Konten Zugriff auf geschützte Informationen erhalten und für wie lange.

  • Eskalationsprozess: Definieren Sie einen klaren Eskalationsprozess, um sicherzustellen, dass Leistungsprobleme zeitnah an die entsprechenden Teams oder Personen eskaliert werden. Die Prozessdefinition sollte Kontaktinformationen und Richtlinien zur Eskalation von Problemen enthalten.

  • Ursachenanalyse: Entwickeln Sie einen Prozess zur Durchführung einer Ursachenanalyse, um die zugrunde liegende Ursache jedes Leistungsproblems zu ermitteln. Der Prozess sollte die Analyse von Protokollen und Leistungsmesswerten sowie die Durchführung von Diagnosetests umfassen, um die Ursache jedes Problems zu ermitteln.

  • Priorisierung: Richten Sie einen Priorisierungsrahmen ein, um die Schwere von Leistungsproblemen zu bestimmen und sie basierend auf ihren Auswirkungen auf die Arbeitslast und die Benutzer zu priorisieren.

  • Kommunikation: Erstellen Sie einen Kommunikationsplan, um die Stakeholder über den Status von Leistungsproblemen und den Fortschritt ihrer Lösung auf dem Laufenden zu halten. Denken Sie an regelmäßige Updates, Statusberichte und klare Kommunikationskanäle.

  • Dokumentation: Dokumentieren Sie den Triage-Plan einschließlich aller Schritte, Prozesse und Best Practices. Diese Dokumentation sollte für die Teammitglieder, die an der Behebung von Leistungsproblemen beteiligt sind, leicht zugänglich sein.

Entwickeln Sie Methoden zur Identifizierung und Lösung von Problemen

Zum Beheben von Live-Leistungsproblemen müssen alle Faktoren identifiziert und behoben werden, die zu Leistungseinbußen oder Ineffizienzen bei einer Live-Arbeitslast führen können. Die Daten, die Sie während der Überwachung erfassen, sind für die Untersuchung und Lösung Leistungsbezogener Vorfälle von unschätzbarem Wert. Diese Daten bieten eine historische Aufzeichnung der Leistungskennzahlen. Wenn Ihnen Überwachungsdaten zur Verfügung stehen, können Sie die Grundursachen analysieren und beitragende Faktoren identifizieren. Sie sollten alle relevanten Überwachungsdaten verwenden, um jedes Leistungsproblem zu verstehen und zu beheben. Überwachen Sie, wie viele vorübergehende Spitzen Sie erkennen, und legen Sie die Schwellenwerte für Anpassen entsprechend fest.

Verwenden Sie eine Ursachenanalyse

Die Ursachenanalyse erfordert Hypothesentests. Nachdem Sie die Überwachungsdaten überprüft haben, sollten Sie mögliche Ursachen des Leistungsproblems auflisten und testen.

Um eine Ursachenanalyse für ein Live-Leistungsproblem durchzuführen, folgen Sie diese Schritte:

  • Informationen sammeln. Sammeln Sie so viele Informationen wie möglich zum Leistungsproblem. Beispiele sind Fehlermeldungen, Protokolle, Leistungsmetriken und alle anderen relevanten Daten. Fügen Sie auch Informationen zu den Benutzern hinzu, die das Problem gemeldet haben, etwa deren Gerät, Netzwerk und Standort.

  • Definieren Sie das Problem. Definieren Sie das Problem klar, indem Sie die Symptome und die Auswirkungen des Problems auf die Arbeitslast oder die Benutzer identifizieren.

  • Untersuchen Sie mögliche Ursachen. Schränken Sie den Analyseumfang ein, indem Sie die spezifische Komponente oder den Bereich der Arbeitslast identifizieren, bei dem das Leistungsproblem auftritt. Identifizieren Sie anhand der gesammelten Informationen mögliche Ursachen des Leistungsproblems. Dieser Prozess kann die Analyse von Code, Konfigurationseinstellungen, Infrastruktur oder externen Abhängigkeiten umfassen.

  • Daten korrelieren. Tauchen Sie tiefer in die gesammelten Daten ein, um Muster, Anomalien oder Korrelationen zu erkennen, die zum Leistungsproblem beitragen könnten. Die Datenkorrelation ist der Schlüssel zur Identifizierung von Leistungsproblemen und deren Ursachen. Hierzu können die Überprüfung von Protokollen, die Analyse von Leistungsmesswerten und die Durchführung von Tests gehören.

  • Testen Sie Hypothesen. Formulieren Sie Hypothesen auf Grundlage der von Ihnen identifizierten potenziellen Ursachen. Führen Sie Tests durch, um Ihre Hypothesen zu bestätigen oder zu widerlegen. Sie sollten einen Test Umgebung verwenden, um zu sehen, ob Sie den Fehler reproduzieren können.

  • Implementieren Sie Lösungen. Sobald Sie die Grundursache ermittelt haben, entwickeln und implementieren Sie Lösungen zur Behebung des Leistungsproblems.

  • Überwachen und validieren. Überwachen Sie nach der Implementierung der Lösungen kontinuierlich die Arbeitslast, um sicherzustellen, dass das Leistungsproblem behoben ist. Überprüfen Sie die Wirksamkeit der Lösungen, indem Sie Leistungsmesswerte und Benutzerfeedback überwachen.

Kompromiss: Die Schritte einer Grundursachenanalyse, wie das Identifizieren möglicher Ursachen, das Testen von Hypothesen und das Dokumentieren der Analyse, können zeitaufwändig sein. Um Leistungsprobleme zu korrelieren, müssen Sie auch Daten erfassen und speichern. Der erforderliche Zeit- und Infrastrukturaufwand kann für die Betriebsteams einen erheblichen Mehraufwand bedeuten und die Arbeitskosten erhöhen.

Risiko: Wenn Sie eine Ursachenanalyse ohne entsprechende Sicherheitsvorkehrungen durchführen, besteht das Risiko, dass Sie vertrauliche Informationen preisgeben, wenn Sie Zugriff auf Protokolle und Daten gewähren.

Engagieren Sie sich Microsoft unterstützen Sie

Wenden Sie sich an den Microsoft Support , um anhaltende Leistungsprobleme zu beheben. Microsoft Supportmitarbeiter verfügen nicht nur über das Fachwissen, die Tools, Ressourcen und die Erfahrung zur Lösung von Problemen, sondern sind möglicherweise auch über aktuelle globale Leistungsprobleme oder Ausfälle informiert, die sich auf Ihre Arbeitslast auswirken könnten. Ihr Supportvertrag bestimmt den Umfang des bereitgestellten Supports.

Oft empfiehlt es sich, parallel mit dem Microsoft Support zu arbeiten. Stellen Sie sich beispielsweise eine Strategie vor, bei der einige Teammitglieder mit dem Microsoft Support zusammenarbeiten, während andere weiterhin Leistungsprobleme untersuchen und beheben.

Es ist wichtig, dem Team die Kontaktinformationen zum Support zur Verfügung zu stellen. Bedenken Sie, dass Microsoft der Support möglicherweise auch Zugriff auf Daten benötigt, um sich wirksam an der Problemlösung beteiligen zu können.

Weitere Informationen finden Sie unter Hilfe und Support unter Power Platform.

Aus Erkenntnissen lernen

Nachdem Sie ein Leistungsproblem einer Live-Site behoben haben, müssen Sie überprüfen, was passiert ist. Das Ziel besteht darin, aus Leistungsproblemen zu lernen, und nicht nur Probleme zu identifizieren. Die beste Art zu lernen ist durch Dokumentation. Dokumentieren Sie jedes Problem und erklären Sie, wie es behoben werden kann. Wenn Ihnen ein Anbieter geholfen hat, arbeiten Sie mit ihm zusammen, um Ihre Dokumentation zu verbessern, Ihr Team zu schulen und Ihren Arbeitsaufwand entsprechend anzupassen.

In der Dokumentation sollte angegeben werden, wie ein erneutes Auftreten der einzelnen Probleme verhindert werden kann. Zusammen mit der Dokumentation können Sie verfeinerte Warnmeldungen erstellen, die Ihnen dabei helfen, frühzeitig auf Indikatoren für Leistungsprobleme zu reagieren.

Umsetzung in Power Platform

Power Platform und Azure bieten mehrere Tools, die Ihnen bei der Reaktion auf Live-Leistungsprobleme helfen:

  • Azure Monitor ist eine umfassende Überwachungslösung, die Einblicke in die Leistung und Integrität Ihrer Anwendungen und Infrastruktur bietet. Azure Monitor bietet Funktionen wie Metriken, Protokolle, Warnungen und Dashboards, die Sie bei der Überwachung und Diagnose von Leistungsproblemen unterstützen. Power Platform Apps und Automatisierung können mithilfe dieser Application Insights Funktion in Azure Monitor integriert werden. Standardtelemetriedaten sowie benutzerdefinierte Ablaufverfolgungsereignisse können protokolliert und analysiert werden.

  • Application Insights ist ein Application Performance Management (APM)-Dienst, der Entwicklern und DevOps-Experten dabei hilft, Live-Anwendungen zu überwachen. Es erkennt automatisch Leistungsanomalien, sammelt Protokolle und Ereignisse auf Anwendungsebene und bietet Analysetools zur Diagnose von Problemen. Power Platform integriert mit Application Insights.

  • Log Analytics ist ein Dienst, der Protokolldaten aus verschiedenen Quellen sammelt und analysiert, darunter Anwendungen, virtuelle Maschinen und Azure-Ressourcen. Wenn Sie Log Analytics verwenden, können Sie Protokolldaten abfragen und analysieren, um Einblicke in die Leistung und das Verhalten Ihrer Anwendungen zu erhalten. Erwägen Sie die Verwendung von Log Analytics, wenn Ihre Workload Azure-Ressourcen verwendet.

  • Solution Checker führt eine umfassende statische Analyse Ihrer Lösungen anhand einer Reihe von Best-Practice-Regeln durch und identifiziert problematische Muster. Beheben Sie alle Leistungsbezogenen Probleme, bevor Sie die Lösung in der Produktion bereitstellen, um Leistungsprobleme auf der Live-Site zu vermeiden.

Leistungsfähigkeitscheckliste

Lesen Sie die vollständigen Empfehlungen.