Empfehlungen für die Konzeption und Erstellung eines Überwachungssystems
Hierfür gilt die Empfehlung der Power Platform Well-Architected Operational Excellence-Checkliste:
OE:06 | Entwerfen und implementieren Sie ein Überwachungssystem, um Designentscheidungen zu validieren und zukünftige Design- und Geschäftsentscheidungen zu treffen. Dieses System erfasst und veröffentlicht betriebliche Telemetriedaten, Metriken und Protokolle, die von der Arbeitslast ausgegeben werden. |
---|
In dieser Anleitung werden die Empfehlungen zur Konzeption und Erstellung eines Überwachungssystems beschrieben. Um Ihre Workload effektiv hinsichtlich Sicherheit, Leistung und Zuverlässigkeit zu überwachen, benötigen Sie ein umfassendes System mit einem eigenen Stapel, der die Grundlage für alle Überwachungs-, Erkennungs- und Warnfunktionen bietet.
Definitionen
Begriff | Definition |
---|---|
Protokolle | Aufgezeichnete Systemereignisse. Protokolle können unterschiedliche Datentypen in einem strukturierten oder Freihandtextformat enthalten. Sie enthalten einen Zeitstempel. |
Metriken | Zahlenwerte, die in regelmäßigen Abständen erhoben werden. Metriken beschreiben bestimmte Aspekte eines Systems zu einem bestimmten Zeitpunkt. |
Wichtige Designstrategien
Um ein umfassendes Überwachungssystem für Ihre Workload zu implementieren, halten Sie sich an diese Grundprinzipien:
Nutzen Sie, wann immer möglich, die von der Plattform bereitgestellten Überwachungstools, da diese in der Regel nur wenig Konfiguration erfordern und Ihnen tiefe Einblicke in Ihre Arbeitslast bieten, die andernfalls möglicherweise nur schwer zu erhalten wären.
Sammeln Sie Protokolle und Metriken aus dem gesamten Workload-Stapel. Alle low-Code- und Code-First-Komponenten und -Ressourcen sollten so konfiguriert werden, dass sie standardisierte, aussagekräftige Daten produzieren, und diese Daten müssen erfasst werden.
Speichern Sie die erfassten Daten in einer standardisierten, zuverlässigen und sicheren Speicherlösung.
Bereiten Sie gespeicherte Daten so auf, dass sie von Analyse- und Visualisierungslösungen verarbeitet werden können.
Analysieren Sie verarbeitete Daten, um den Status der Workload genau zu bestimmen.
Visualisieren Sie den Status der Workload in aussagekräftigen Dashboards oder Berichten für Workload-Teams und andere Stakeholder.
Konfigurieren Sie umsetzbare Warnungen und andere automatische Reaktionen auf intelligent festgelegte Schwellenwerte, um Workload-Teams bei auftretenden Problemen zu benachrichtigen.
Integrieren Sie Überwachungs- und Warnsysteme in Ihre allgemeinen Workload-Testverfahren.
Stellen Sie sicher, dass Überwachungs- und Warnsysteme kontinuierlich verbessert werden können. Das Anwendungs- und Konfigurationsverhalten in der Produktion bietet Gelegenheit zum kontinuierlichen Lernen. Integrieren Sie diese Erkenntnisse in Ihre Überwachungs- und Warnkonzepte.
Verknüpfen Sie die erfassten und analysierten Überwachungsdaten mit Ihrem System und Ihren Benutzerflüssen , um die Integrität der Flüsse mit den Daten sowie die allgemeine Integrität der Arbeitslast zu korrelieren. Durch die Analyse dieser Daten im Hinblick auf die Flüsse können Sie Ihre Beobachtungsstrategie mit Ihrem Gesundheitsmodell ausrichten verbessern.
Minimieren Sie die Speicherung identifizierbarer Informationen, um sicherzustellen, dass Sie nicht gegen Gesetze und Vorschriften verstoßen. Wenn Sie identifizierbare Informationen speichern müssen, achten Sie beim Entwurf Ihrer Lösung darauf, dass Sie Anforderungen berücksichtigen, die es Einzelpersonen ermöglichen, die Löschung ihrer Informationen zu verlangen.
Zeichnen Sie niemals Benutzerkennwörter oder andere Informationen auf, die für Identitätsbetrug verwendet werden könnten. Löschen Sie diese Details aus den Daten, bevor sie gespeichert werden. Eventuell ist es gesetzlich vorgeschrieben, dass für Prüf- und Sicherheitszwecke erfasste Informationen archiviert und gespeichert werden müssen. Auch diese Daten sind vertraulich und müssen möglicherweise verschlüsselt oder anderweitig geschützt werden, um mögliche Manipulationen zu verhindern.
Sie sollten alle Funktionen des Überwachungssystems so weit wie möglich automatisieren und alle Funktionen sollten kontinuierlich – rund um die Uhr – ausgeführt werden.
Diese Workflow-Pipeline veranschaulicht das Überwachungssystem:
Sammlung
Sie sollten alle Workloadkomponenten (unabhängig davon, ob es sich um low-Code, Code-First-Komponenten oder Plattformeinstellungen wie Umgebungen und Richtlinien handelt) konfigurieren, um Telemetriedaten und Ereignisse wie Protokolle und Metriken zu erfassen.
Protokolle sind vor allem beim Erkennen und Untersuchen von Anomalien hilfreich. Normalerweise werden Protokolle von der Workload-Komponente erstellt und dann an die Überwachungsplattform gesendet oder automatisch von der Überwachungsplattform abgerufen.
Metriken sind vor allem für den Aufbau eines Integritätsmodells und das Erkennen von Trends bei der Workload-Leistung und -Zuverlässigkeit hilfreich. Darüber hinaus sind Metriken hilfreich, um Trends im Nutzungsverhalten Ihrer Benutzenden zu erkennen. Diese Trends können aus Kundensicht als Entscheidungshilfe für Verbesserungen dienen. Normalerweise werden Metriken in der Überwachungsplattform festgelegt und die Überwachungsplattform und andere Tools fragen die Workload ab, um Metriken zu erfassen.
Workloaddaten
Verwenden Sie die sofort einsatzbereite Integration mit Application Insights , um Daten zu sammeln. Nach der Aktivierung von Application Insights erhalten Sie einen klaren Einblick in wichtige Ereignisse und zwar sowohl in Echtzeit als auch in historische Ereignisse.
Anwendungsprotokolle unterstützen den gesamten Anwendungslebenszyklus. Die Protokollierung ist wichtig, um zu verstehen, wie die Anwendung in unterschiedlichen Umgebungen funktioniert, welche Ereignisse auftreten und unter welchen Bedingungen.
Wir empfehlen Ihnen, Anwendungsprotokolle und Ereignisse in allen wichtigen Umgebungen zu erfassen. Trennen Sie die Daten zwischen den Umgebungen so weit wie möglich, indem Sie (sofern praktikabel) für jede Umgebung einen eigenen Datenspeicher verwenden. Verwenden Sie Filter, um sicherzustellen, dass nicht kritische Umgebungen die Interpretation von Produktionsprotokollen nicht erschweren. Zu guter Letzt sollten entsprechende Protokolleinträge in der gesamten Anwendung eine Korrelations-ID für die jeweiligen Transaktionen erfassen.
Infrastruktur und Konfigurationsdaten
Stellen Sie im Hinblick auf die Infrastrukturressourcen in Ihrer Workload sicher, dass Sie sowohl Protokolle als auch Metriken erfassen. Da es sich um ein Platform-as-a-Service-Angebot (PaaS) handelt, sind Sie möglicherweise in Ihrer Fähigkeit, Protokolle im Zusammenhang mit der zugrunde liegenden Infrastruktur zu erfassen, eingeschränkt. Power Platform Sie können jedoch Protokolle und Analysen zu Konfigurations- und Richtlinienänderungen im Zusammenhang mit der Workload-Integrität und mit Vorfällen erfassen.
Erfassen Sie aus Ihrer Cloud-Plattform so viele Protokolle wie möglich. Möglicherweise können Sie Aktivitätsprotokolle für Ihr Abonnement und Diagnoseprotokolle für die Verwaltungsebene erfassen.
Überlegungen zur Leistung
Komplexe und hoch skalierbare Anwendungen können riesige Datenmengen erzeugen. Die Datenmenge kann, je nachdem, wie ausführlich die Nachverfolgung auf Anwendungsebene ist, Leistungsprobleme verursachen. Die Telemetrielösung darf keinen Engpass darstellen und muss bei einer Erweiterung des Systems skalierbar sein.
Analyse
Nachdem Sie Daten aus verschiedenen Quellen gesammelt haben, analysieren Sie diese, um den allgemeinen Zustand des Systems zu beurteilen. Für diese Analyse müssen Sie sich über Folgendes im Klaren sein:
- So strukturieren Sie Daten basierend auf Key Performance Indicators (KPIs) und anderen Leistungsmetriken, die Sie definiert haben.
- Wie Sie die in verschiedenen Metriken und Protokolldateien erfassten Daten korrelieren. Diese Korrelation ist wichtig, wenn Sie aufeinanderfolgende Ereignisse nachverfolgen, und kann Ihnen bei der Diagnose von Problemen helfen.
In den meisten Fällen verfügt Ihre Workload über verschiedenen Komponenten und Protokolle oder Ereignisse werden in unterschiedlichen Formaten oder Tabellen erfasst. Sie müssen die Daten präzise kombinieren, um sich ein Bild von der grundsätzlichen Integrität der Workload zu machen.
Ihre Power Platform Lösung könnte beispielsweise aus den folgenden Komponenten bestehen:
- Eine Canvas-App, die Benutzern die Interaktion mit den Daten ermöglicht
- Eine modellbasierte App, mit der Administratoren Einstellungen für die Anwendung konfigurieren können
- Ein Cloud-Flow, das Datenoperationen durchführt
- Eine Dataverse Instanz, die mit der Operation verknüpfte Daten speichert
- Eine Azure-Funktion, die Daten aus dem Azure-Tabellenspeicher abruft und von der Anwendung aufgerufen wird
Die Nutzungsdaten für einen einzelnen Geschäftsvorgang können sich über alle Komponenten der Workload erstrecken. Diese Informationen müssen korreliert werden, um einen Gesamtüberblick über die Ressourcen- und Verarbeitungsnutzung durch den Vorgang zu erhalten.
Empfehlungen für die Datenanalyse
Korrelieren Sie Protokolle auf Anwendungs- und Ressourcenebene. Werten Sie Daten auf beiden Ebenen aus, um die Erkennung und Behebung von Problemen zu optimieren.
Legen Sie klare Aufbewahrungszeiten für die Speicherung für eine kalte Analyse fest. Wir empfehlen dieses Vorgehen, um eine historische Analyse über einen bestimmten Zeitraum zu ermöglichen. Darüber hinaus können Sie damit die Speicherkosten kontrollieren. Implementieren Sie Prozesse, die sicherstellen, dass Daten auf kostengünstigeren Speichermedien archiviert werden, und aggregieren Sie Daten für eine langfristige Trendanalyse.
Analysieren Sie langfristige Trends, um betriebliche Probleme vorherzusagen. Werten Sie Langzeitdaten aus, um betriebliche Strategien zu entwickeln und um vorherzusagen, welche betrieblichen Probleme wahrscheinlich auftreten werden und wann. Beispielsweise stellen Sie möglicherweise fest, dass die durchschnittlichen Antwortzeiten mit der Zeit immer mehr zunehmen und sich dem Höchstwert nähern.
Visualisierung
Die Visualisierung ist bei der Systemüberwachung für das Verständnis des Zustands der Workload von entscheidender Bedeutung. Mithilfe der Visualisierung können Sie Probleme und Trends schnell erkennen und die Auswirkungen von Änderungen verstehen, die Sie an der Arbeitslast vornehmen.
Dashboards
Die gängigste Methode zur Visualisierung von Daten ist die Verwendung von Dashboards, die Informationen in Form von Diagrammen oder Grafiken anzeigen können. Diese Elemente können parametrisiert werden, und Analsefachkräfte können die wichtigen Parameter, beispielsweise den Zeitraum, für jede einzelne Situation auswählen.
Richten Sie Ihre Dashboards an Ihrem Integritätsmodell aus, sodass sie anzeigen, wann die Workload oder Komponenten der Workload fehlerfrei, beeinträchtigt oder fehlerhaft sind.
Damit ein Dashboardsystem effektiv funktioniert, muss es für das Workload-Team Aussagekraft haben. Visualisieren Sie Informationen, die sich auf die Integrität der Workload beziehen und umsetzbar sind. Wenn die Workload oder eine Komponente beeinträchtigt oder fehlerhaft ist, sollten die Mitglieder des Workload-Teams problemlos feststellen können, wo in der Workload das Problem seinen Ursprung hat, und die entsprechenden Korrekturmaßnahmen oder Untersuchungen einleiten können. Umgekehrt kann die Aufnahme von Informationen, die nicht umsetzbar sind oder keinen Bezug zur Arbeitslastintegrität haben, das Dashboard unnötig komplex machen und für Teammitglieder frustrierend sein, die versuchen, Hintergrundrauschen von umsetzbaren Daten zu unterscheiden.
Möglicherweise verfügen Sie über Dashboards für Stakeholder oder Entwicklungsfachkräfte, die so angepasst sind, dass nur die Daten zur Workload angezeigt werden, die sie für relevant erachten. Stellen Sie sicher, dass das Workload-Team versteht, welche Arten von Datenpunkten für andere Teams von Interesse sind, und sich die Dashboards vor der Freigabe in der Vorschau ansieht, um sie auf Klarheit zu prüfen. Durch die Bereitstellung von Dashboards über Ihre Arbeitslast für Stakeholder können Sie diese gut über den Zustand der Arbeitslast auf dem Laufenden halten. Allerdings besteht das Risiko, dass dies kontraproduktiv ist, wenn die Stakeholder die Daten nicht klar verstehen.
Beschränken Sie den Dashboard-Zugriff auf befugte Personen. Die Informationen auf den Dashboards sind eventuell vertraulich. Sie sollten auch die zugrunde liegenden Daten schützen, damit Benutzende sie nicht ändern können.
Berichterstellung
Durch die Berichterstellung entsteht ein Gesamtüberblick über das System. Berichte können historische Daten und aktuelle Informationen enthalten. Die Berichtsanforderungen lassen sich in zwei große Kategorien einteilen: betriebliche und Sicherheitsberichterstattung.
Die betriebliche Berichterstellung umfasst typischerweise:
- Aggregierte Statistiken, die Ihnen helfen, die Ressourcennutzung im Gesamtsystem oder in bestimmten Teilsystemen während eines angegebenen Zeitfensters zu verstehen.
- Erkennen von Trends in der Ressourcennutzung im Gesamtsystem oder bestimmten Teilsystemen während eines angegebenen Zeitraums.
- Überwachen von Ausnahmen, die im gesamten System oder in bestimmten Teilsystemen während eines angegebenen Zeitraums aufgetreten sind.
- Bestimmen Sie die Effizienz der Anwendung für die eingesetzten Ressourcen und verstehen Sie, ob das Ressourcenvolumen und die damit verbundenen Kosten reduziert werden können, ohne die Leistung unnötig zu beeinträchtigen.
Sicherheitsberichte verfolgen die Nutzung des Systems durch Kundschaft. Dazu kann Folgendes gehören:
- Überwachen von Benutzervorgängen. Für diese Aufgabe müssen die einzelnen Anfragen, die Benutzende stellen, zusammen mit Datum und Uhrzeit aufgezeichnet werden. Die Daten sollten so strukturiert sein, dass Administrierende die Abfolge der Vorgänge, die Benutzende während eines bestimmten Zeitraums ausführen, schnell rekonstruieren können.
- Nachverfolgung der Ressourcennutzung durch Benutzende. Dieses Aufgabe erfordert die Aufzeichnung, wie jede Anforderung eines Benutzers auf die verschiedenen Ressourcen im System zugreift und wie lange. Administrierende können diese Daten verwenden, um einen Nutzungsbericht pro Benutzendem für einen angegebenen Zeitraum zu erstellen, was zum Beispiel für die Abrechnung notwendig sein kann.
Warnungen
Um sicherzustellen, dass das System weiterhin fehlerfrei, reaktionsfähig und sicher ist, legen Sie Warnungen fest, damit die bedienenden Fachkräfte rechtzeitig darauf reagieren können. Eine Warnung kann ausreichend Kontextinformationen enthalten, um schnell mit der Diagnose zu beginnen.
Empfehlungen für Warnungen
- Legen Sie einen Prozess zum Umfang mit Warnungen fest, der die Verantwortlichen und die Maßnahmen umfasst.
- Konfigurieren Sie Warnungen für einen klar definierten Bereich und achten Sie im Hinblick auf die Ausführlichkeit darauf, dass kein Hintergrundrauschen entsteht.
- Verwenden Sie eine automatisierte Warnlösung wie Splunk oder Azure Monitor, anstatt von Mitarbeitenden zu verlangen, dass sie aktiv nach Problemen suchen.
- Verwenden Sie Warnungen, um Korrekturprozesse zu operationalisieren. Erstellen Sie beispielsweise automatisch Tickets, um Probleme und Lösungen nachzuverfolgen.
Schwellenwerte
Wenn Ihr Überwachungssystem feststellt, dass bestimmte Schwellenwerte überschritten werden, werden Warnungen ausgelöst. Stellen Sie sicher, dass die von Ihnen festgelegten Schwellenwerte Ihnen grundsätzlich genügend Zeit lassen, um die erforderlichen Änderungen an Ihrer Workload vorzunehmen und so eine Verschlechterung oder Ausfälle zu vermeiden. Sie sollten auch die erforderliche Fehlerbehandlung implementieren und bekannte Fehler in Ihrer Workload abfangen, um die Anzahl der Warnungen zu reduzieren. Konfigurieren Sie beispielsweise Wiederholungsrichtlinien für Ihre Aktionen in Cloud-Flows, sodass im Rahmen der Flow-Ausführung ein Wiederholungsversuch unternommen wird, und zwar nur, wenn wiederholte Wiederholungsversuche fehlschlagen und ein Flow-Fehler aufgezeichnet und eine Warnung gesendet wird. Weitere Informationen finden Sie in den Empfehlungen zum Entwerfen einer zuverlässigen Überwachungs- und Warnstrategie.
Umsetzung in Power Platform
Power Platform ist Teil des Application Insights, einen Teil des Azure Monitor-Ökosystems. Verwenden Sie diese Integration für Folgendes:
Empfangen Sie Telemetriedaten zu Diagnose und Leistung, die von der Dataverse-Plattform in Application Insights erfasst werden. Sie können abonnieren, um Telemetriedaten zu Vorgängen zu erhalten, die Anwendungen in Ihrer Dataverse-Datenbank und in Modellgesteuerten Apps ausführen. Diese Telemetrie stellt Informationen bereit, mit denen Sie Probleme im Zusammenhang mit Fehlern und Leistung diagnostizieren und beheben können.
Verbinden Ihre Canvas-Apps zu Application Insights. Mithilfe dieser Analysen können Sie Probleme diagnostizieren und verstehen, was Benutzer mit Ihren Apps machen. Sie können Informationen sammeln, um bessere Geschäftsentscheidungen zu treffen und die Qualität Ihrer Apps zu verbessern.
Konfigurieren Sie die Power Automate Telemetrie für den Datenfluss Application Insights. Sie können beispielsweise Cloud-Flow-Ausführungen überwachen und Warnungen für Fehler bei der Ausführung von Cloud-Flows erstellen.
Erfassen Sie Telemetriedaten von Ihrem Microsoft Copilot Studio Copiloten zur Verwendung in Azure Application Insights. Sie können diese Telemetrie verwenden, um protokollierte Nachrichten und Ereignisse zu überwachen, die an Ihren Copiloten gesendet werden und von diesem empfangen werden, Themen, die während Benutzergesprächen ausgelöst werden sollen, und benutzerdefinierte Telemetrieereignisse, die von Ihren Themen gesendet werden können.
Power Platform Ressourcen protokollieren Aktivitäten im Microsoft Purview-Compliance-Portal. Die meisten Ereignisse sind innerhalb von 24 Stunden nach der Aktivität verfügbar. Verwenden Sie diese Informationen nicht zur Echtzeitüberwachung. Für weitere Informationen zu Protokollierungsaktivitäten in Power Platform:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Power Platform Anschlüsse
- Daten Schadensverhütung
- Power Platform Verwaltungsprotokolle
- Dataverse Wirtschaftsprüfung
Ihre Power Platform Arbeitslast kann Azure-Ressourcen umfassen. Weitere Informationen finden Sie in den Empfehlungen zum Entwerfen und Erstellen eines Überwachungssystems.
Das Power Platform CoE Starter Kit ist eine Verweisimplementierung, die eine Sammlung von Komponenten und Tools enthält, die den Einstieg in die Entwicklung einer Strategie zur Einführung und Unterstützung der Power Platform erleichtern soll. Im CoE Starter Kit ist ein umfangreiches Set an Dashboards enthalten. Erfahren Sie mehr unter Gewinnen Sie tiefe Einblicke in Ihre Microsoft Power Platform Akzeptanz mit dem CoE- Power BI Dashboard.
Das Power Platform Automation Kit besteht aus einer Reihe von Tools, die die Verwendung und die Unterstützung von Power Automate für Desktop für Automatisierungsprojekte beschleunigen. Das Kit bietet Tools, mit denen Sie Automationsprojekte verwalten und überwachen können, um die eingesparten Kosten und den Return on Investment (ROI) abzuschätzen. Teil des Automatisierungskits ist das Kontrollzentrum, das die Funktion „Desktop-Flow-Läufe überwachen“ ergänzt. Der Schwerpunkt des Kontrollzentrums liegt auf einer Orchestrator-Ansicht für Support-Analysten und Organisationen, um bei Bedarf zu überwachen, Maßnahmen zu ergreifen und Warnungen auszugeben.
Verwandte Informationen
- Empfehlungen für die Entwicklung einer zuverlässigen Überwachungs- und Warnstrategie
- Empfehlungen für die Überwachung und Bedrohungserkennung