Del via


Anbefalinger for utforming og oppretting av et overvåkingssystem

Gjelder denne Power Platform anbefalingen for Well-Architected Operational Excellence-sjekklisten:

OE:06 Utforme og implementer et overvåkingssystem for å validere utformingsvalg og informere fremtidige utformings- og forretningsavgjørelser. Dette systemet registrerer og eksponerer operativ telemetri, måledata og logger som sendes ut fra arbeidsbelastningen.

Denne veiledningen beskriver anbefalingene for utforming og oppretting av et overvåkingssystem. For å kunne overvåke arbeidsbelastningen på en effektiv måte for sikkerhet, ytelse og pålitelighet trenger du et omfattende system med en egen stakk som utgjør fundamentet for alle overvåkings-, registrerings- og varselfunksjoner.

Definisjoner

Term Definisjon
Logger Registrerte systemhendelser. Logger kan inneholde ulike typer data i et strukturert eller friformstekstformat. De inneholder et tidsstempel.
Måleverdier Numeriske verdier som samles inn med jevne mellomrom. Måleverdier beskriver enkelte aspekter ved et system på et bestemt tidspunkt.

Viktige utformingsstrategier

Følg disse kjerneprinsippene for å implementere et omfattende overvåkingssystem for arbeidsbelastningen:

  • Når det er praktisk mulig, dra nytte av plattformleverte overvåkingsverktøy, som vanligvis krever lite konfigurasjon og kan gi dyp innsikt i arbeidsmengden din som ellers kan være vanskelig å oppnå.

  • Samle logger og måleverdier fra hele arbeidsbelastningsstakken. Alle komponenter og ressurser med lav kode og kode først bør konfigureres til å produsere standardiserte, meningsfulle data, og disse dataene må samles inn.

  • Lagre de innsamlede dataene i en standardisert, pålitelig og sikker lagringsløsning.

  • Behandle lagrede data slik at de kan håndteres av analyse- og visualiseringsløsninger.

  • Analyser behandlede data for å fastslå tilstanden til arbeidsbelastningen nøyaktig.

  • Visualiser tilstanden til arbeidsbelastningen i meningsfulle instrumentbord eller rapporter for arbeidsbelastningsteam og andre interessenter.

  • Konfigurer handlingsbare varsler og andre automatiske svar på intelligent definerte grenseverdier for å varsle arbeidsbelastningsteam når det oppstår problemer.

  • Inkluder overvåkings- og varselsystemer i de generelle testprosedyrene for arbeidsbelastning.

  • Sørg for at overvåkings- og varselsystemer kan forbedres kontinuerlig. App- og konfigurasjonsvirkemåte i produksjon gir kontinuerlige læringsmuligheter. Innlem disse leksjonene i overvåkings- og varselutforming.

  • Knytt overvåkingsdataene du samler inn og analyserer, tilbake til system- og brukerflytene for å korrelere tilstanden til flytene med dataene i tillegg til den generelle tilstanden til arbeidsbelastningen. Analyse av disse dataene i form av flytene bidrar til å justere observerbarhetsstrategien med tilstandsmodellen.

  • Minimer lagringsplassen for identifiserbare opplysninger for å sikre at du overholder lover og forskrifter. Hvis du trenger å lagre identifiserbar informasjon, må du passe på at når du utformer løsningen, tar du hensyn til krav som gjør det mulig for enkeltpersoner å be om at informasjonen deres slettes.

  • Du må aldri registrere brukerpassord eller annen informasjon som kan brukes til å begå identitetssvindel. Fjern disse detaljene fra dataene før de lagres. Forskriftskrav kan diktere at informasjon som samles inn for sporing av endringer og sikkerhet, må arkiveres og lagres. Disse dataene er også sensitive og må kanskje krypteres eller på annen måte beskyttes for å hindre tukling.

Du bør automatisere alle funksjonene i overvåkingssystemet så mye som mulig, og alle må kjøre kontinuerlig hele dagen, hver dag.

Denne arbeidsflytforløpet illustrerer overvåkingssystemet:

Diagram som viser trinnene i et omfattende overvåkingssystem som et forløp.

Samling

Du bør konfigurere alle arbeidsbelastningskomponenter, enten de er lavkode- eller kode-først-komponenter eller plattforminnstillinger, for eksempel miljøer og policyer, for å registrere telemetri og hendelser som logger og måledata.

Logger er først og fremst nyttige for å registrere og undersøke avvik. Vanligvis produseres logger av arbeidsbelastningskomponenten og sendes deretter til overvåkingsplattformen eller trekkes av overvåkingsplattformen med automatisering.

Måleverdier er først og fremst nyttige for å bygge en tilstandsmodell og identifisere trender for arbeidsbelastningsytelse og -pålitelighet. Måleverdier er også nyttige for å identifisere trender i forbruksatferden til brukerne. Disse trendene kan hjelpe deg med å veilede avgjørelser om forbedringer fra kundens perspektiv. Måleverdier defineres vanligvis på overvåkingsplattformen, og overvåkingsplattformen og andre verktøy måler arbeidsbelastningen for å registrere måleverdier.

Arbeidsbelastningsdata

Bruk den bruksklare integrasjonen til Application Insights å samle inn data. Når Application Insights er aktivert, kan du få tydelig informasjon om viktige hendelser, både i sanntid og historisk.

Programlogger støtter ende-til-ende-applikasjonslivssyklusen. Logging er viktig for å forstå hvordan programmet fungerer i ulike miljøer, hvilke hendelser som inntreffer, og forholdene de oppstår under.

Vi anbefaler at du samler inn programlogger og hendelser i alle større miljøer. Skill dataene mellom miljøer så mye som mulig ved å bruke forskjellige datalagre for hvert miljø hvis dette er praktisk. Bruk filtre for å sikre at ikke-kritiske miljøer ikke gjør produksjonsloggene vanskeligere å tolke. Til slutt skal tilsvarende loggoppføringer i programmet registrere en korrelasjons-ID for de respektive transaksjonene.

Infrastruktur og konfigurasjonsdata

For infrastrukturressurser i arbeidsbelastningen må du sørge for at du samler inn både logger og måleverdier. Fordi Power Platform det er et PaaS-tilbud (plattform som en tjeneste), kan du være begrenset i muligheten til å registrere logger relatert til underliggende infrastruktur. Du kan imidlertid registrere logger og analyse av konfigurasjons- og policyendringer relatert til arbeidsbelastningstilstand og hendelser.

Samle inn logger fra skyplattformen så mye som mulig. Det kan hende du kan samle inn aktivitetslogger for abonnementet ditt og diagnoseloggene for administrasjonsplanet.

Ytelseshensyn

Et komplekst og svært skalerbart program kan generere store datavolumer. Datamengden kan føre til ytelsesproblemer avhengig av hvor detaljert sporingen er på programnivå. Telemetriløsningen må ikke fungere som en flaskehals og må være skalerbar etter hvert som systemet utvides.

Analyse

Når du har samlet inn data fra ulike kilder, kan du analysere dem for å vurdere systemets generelle velvære. For denne analysen, ha en klar forståelse av følgende:

  • Hvordan du strukturerer data basert på KPI-er (Key Performance Indicators) og andre ytelsesmål som du har definert.
  • Hvordan du korrelerer dataene som er registrert i diverse måleverdier og loggfiler. Denne korrelasjonen er viktig når du sporer en hendelsessekvens og kan hjelpe deg med å diagnostisere problemer.

I de fleste tilfeller vil arbeidsbelastningen ha forskjellige komponenter, og logger eller hendelser registreres i forskjellige formater eller tabeller. Du må kombinere dataene nøyaktig for å få en forståelse av den generelle tilstanden til arbeidsbelastningen.

Løsningen kan for eksempel Power Platform bestå av følgende komponenter:

  • En lerretsapp som lar brukere samhandle med dataene
  • En modelldrevet app som gjør det mulig for administratorer å konfigurere innstillinger for programmet
  • En skyflyt som utfører dataoperasjoner
  • En Dataverse forekomst som lagrer data som er knyttet til operasjonen
  • En Azure-funksjon som henter data fra Azure Table Storage og kalles fra programmet

Bruksdataene for én enkelt forretningsoperasjon kan omfatte alle komponentene i arbeidsbelastningen. Denne informasjonen må korreleres for å gi en oversikt over ressursen og behandlingsbruken for operasjonen.

Anbefalinger for dataanalyse

Korreler logger på programnivå og ressursnivå. Evaluer data på begge nivåer for å optimalisere oppdagelse og feilsøking av problemer.

Definer klare oppbevaringstider for lagring for kald analyse. Vi anbefaler at du bruker denne praksisen til å aktivere historiske analyser i løpet av en bestemt periode. Det kan også hjelpe deg med å styre lagringskostnadene. Implementer prosesser som sikrer at data arkiveres for å lagre lagringsplass, og akkumuler data for trendanalyse på lang sikt.

Analyser trender på lang sikt for å forutsi driftsproblemer. Evaluer langtidsdata for å danne driftsstrategier, og også for å forutsi hvilke driftsproblemer som sannsynligvis vil oppstå, og når. Du kan for eksempel merke deg at gjennomsnittlige svartider øker langsomt over tid og nærmer seg det maksimale målet.

Visualisering

Visualisering i tilstandsovervåkning er viktig for å forstå tilstanden til arbeidsbelastningen. Visualisering kan hjelpe deg med å raskt identifisere problemer og trender, og kan også hjelpe deg med å forstå effekten av endringer du gjør i arbeidsmengden.

Instrumentbord

Den vanligste måten å visualisere data på er å bruke dashbord som kan vise informasjon i form av diagrammer eller grafer. Disse elementene kan parameteriseres, og en analytiker kan velge viktige parametere, for eksempel tidsperioden, for en bestemt situasjon.

Juster instrumentbordene med tilstandsmodellen slik at de angir når arbeidsbelastningen eller komponentene i arbeidsbelastningen er sunne, nedgraderte eller usunne.

For at et instrumentbordsystem skal fungere effektivt, må det være meningsfylt for arbeidsbelastningsteamet. Visualiser informasjon som er relatert til arbeidsbelastningstilstand, og som også kan brukes. Når arbeidsbelastningen eller en komponent blir nedgradert eller usunn, skal medlemmene av arbeidsbelastningsteamet enkelt kunne identifisere hvor i arbeidsbelastningen problemet kommer fra, og starte korrigeringene eller undersøkelsene. Omvendt kan det å inkludere informasjon som ikke er handlingsrettet eller som ikke er relatert til arbeidsbelastningstilstand, gjøre instrumentbordet unødvendig komplekst og frustrerende for teammedlemmer som prøver å skille bakgrunnsstøy fra handlingsrettede data.

Du har kanskje instrumentbord for interessenter eller utviklere som er tilpasset til bare å vise data om arbeidsbelastningen de synes er relevant. Sørg for at arbeidsbelastningsteamet forstår hvilke typer datapunkter som andre team er interessert i å se, og forhåndsvis instrumentbordene før du deler dem, slik at det blir en klarhet. Å tilby instrumentbord om arbeidsbelastningen for interessenter er en god måte å holde dem informert om arbeidsbelastningens tilstand, men innebærer en risiko for å være kontraproduktiv hvis interessentene ikke tydelig forstår dataene.

Begrens tilgang til instrumentbord til autorisert personell. Informasjon om instrumentbord kan være sensitiv. Du bør også beskytte de underliggende dataene for å hindre at brukere endrer dem.

Rapporterer

Rapportering brukes til å generere en generell visning av systemet. Den kan inkludere historiske data og gjeldende informasjon. Rapporteringskravene faller inn i to brede kategorier: driftsrapportering og sikkerhetsrapportering.

Driftsrapportering omfatter vanligvis følgende:

  • Samle statistikk som du kan bruke for å forstå ressursutnyttelse av det totale systemet eller bestemte delsystemer i løpet av et bestemt tidsvindu.
  • Identifisere trender i ressursbruken for det totale systemet eller angitte delsystemer i løpet av en bestemt periode.
  • Overvåkinge unntak som har forekommet i hele systemet eller i angitte delsystemer i løpet av en angitt periode.
  • Bestemme effektiviteten til applikasjonen for de distribuerte ressursene, og forstå om ressursvolumet og de tilknyttede kostnadene kan reduseres uten å påvirke ytelsen unødvendig.

Sikkerhetsrapportering sporer kundebruken av systemet. Det kan omfatte følgende:

  • Sporing av endringer i brukeroperasjoner. Denne oppgaven krever at du registrerer individuelle forespørsler som hver bruker fullfører, sammen med datoer og klokkeslett. Dataene må struktureres slik at en administrator kan rekonstruere sekvensen av operasjoner som en bruker fullfører i løpet av en bestemt periode.
  • Spore ressursbruk etter bruker. Denne oppgaven krever registrering av hvordan hver forespørsel fra en bruker får tilgang til de ulike ressursene i systemet, og hvor lenge. En administrator kan bruke disse dataene til å generere en utnyttelsesrapport, etter bruker, for en bestemt periode, kanskje for fakturering.

Varsler

Du kan sikre at systemet holder seg stabilt, responsivt og sikkert ved å angi varsler slik at operatørene kan svare på dem i tide. Et varsel kan inneholde nok kontekstuell informasjon til at de kan komme raskt i gang med diagnoseaktiviteter.

Anbefalinger for varsling

  • Definer en prosess for varselsvar som identifiserer de ansvarlige eierne og handlingene.
  • Konfigurer varsler for et godt definert omfang, og juster detaljnivå for å redusere støy.
  • Bruk en automatisk varselløsning, for eksempel Splunk eller Azure Monitor, i stedet for å kreve at personer aktivt ser etter problemer.
  • Bruk varsler til å drifte utbedringsprosesser. Opprett for eksempel automatisk billetter for å spore problemer og løsninger.

Terskler

Varsler genereres når terskler brytes, som registreres av overvåkingssystemet. Sørg for at tersklene du angir, generelt gir deg nok tid til å implementere de nødvendige endringene i arbeidsbelastningen for å unngå forringelse eller avbrudd. Du bør også implementere nødvendig feilhåndtering og fange opp kjente feil i arbeidsbelastningen for å redusere antall varsler. Du kan for eksempel konfigurere policyer for nye forsøk for handlingene dine i skyflyter, slik at et nytt forsøk blir forsøkt som en del av flytkjøringen, og bare hvis gjentatte forsøk mislykkes og flytfeil registreres og et varsel sendes. Finn ut mer i Anbefalinger for å utforme en pålitelig overvåkings- og varslingsstrategi.

Tilrettelegging for Power Platform

Power Platform integreres med Application Insights, som er en del av Azure Monitor-økosystemet. Bruk denne integreringen til å gjøre følgende:

  • Motta telemetri om diagnostisering og ytelse som registreres av Dataverse-plattformen i Application Insights. Du kan abonnere for å motta telemetri om operasjoner som programmer utfører i Dataverse-databasen og i modelldrevne apper. Denne telemetrien inneholder informasjon som du kan bruke til å diagnostisere og feilsøke problemer relatert til feil og ytelse.

  • Koble lerretsappene til Application Insights. Du kan bruke disse analysene til å diagnostisere problemer og forstå hva brukerne gjør med appene dine. Du kan samle inn informasjon som hjelper deg med å ta bedre forretningsavgjørelser og forbedre kvaliteten på appene dine.

  • Konfigurer Power Automate telemetri som skal flytes inn. Application Insights Du kan for eksempel overvåke kjøringer av skyflyt og opprette varsler for kjøringsfeil i skyflyten.

  • Fang opp telemetridata fra copiloten Microsoft Copilot Studio for bruk i Azure Application Insights. Du kan bruke denne telemetrien til å overvåke loggede meldinger og hendelser som sendes til og fra copiloten, emner som skal utløses under brukersamtaler, og egendefinerte telemetrihendelser som kan sendes fra emnene.

Power Platform ressurser logger aktiviteter i Microsoft Purview-samsvarsportal. De fleste hendelser er tilgjengelige innen 24 timer etter aktiviteten. Ikke bruk denne informasjonen til overvåking i sanntid. Hvis du vil ha mer informasjon om logging av aktiviteter i Power Platform, kan du se følgende:

Arbeidsbelastningen din Power Platform kan inkludere Azure-ressurser. Finn ut mer i Anbefalinger for utforming og oppretting av et overvåkingssystem.

Power Platform CoE-startsettet er en referanseimplementering som inneholder en samling komponenter og verktøy som er utformet for å hjelpe deg i gang med å utvikle en strategi for innføring og å støtte Power Platform. Inkludert i CoE-startpakken er et rikt sett med instrumentbord. Finn ut mer i Få dyp innsikt i innføringen din Microsoft Power Platform med CoE-instrumentbordet Power BI .

Power Platform-automatiseringspakken er et sett med verktøy som akselererer bruken og støtten for Power Automate for skrivebord for automatiseringsprosjekter. Pakken inneholder verktøy som hjelper deg med å administrere automatiseringsprosjekter og overvåke dem for å beregne penger spart og avkastning. En del av automatiseringssettet er kontrollsenteret, som utfyller funksjonen for kjøring av skrivebordsflyt på skjermen. Hovedfokuset for kontrollsenteret er en iverksettingsvisning der analytikere og organisasjoner kan overvåke, iverksette tiltak og varsle når det er nødvendig.

Neste trinn