Recomendações para criar uma estratégia confiável de monitoramento e alertas

Artigo
10/16/2024

Aplica-se a esta recomendação da lista de verificação de confiabilidade bem arquitetada: Power Platform

RE:08	Meça e publique os indicadores de integridade da solução. Capture continuamente o tempo de atividade e outros dados de confiabilidade de toda a carga de trabalho e também de componentes individuais e fluxos-chave.

Este guia descreve as recomendações para criar uma estratégia confiável de monitoramento e alertas. Implemente essa estratégia para manter suas equipes de operações informadas sobre o status de integridade de seu ambiente e garantir que você atenda às metas de confiabilidade estabelecidas para sua carga de trabalho.

Definições

Termo	Definição
Métricas	Valores numéricos que são coletados em intervalos regulares. As métricas descrevem alguns aspectos de um sistema em um determinado momento.
Logs de recurso	Dados que um sistema gera sobre o estado do sistema.
Rastreamentos	Dados que fornecem informações sobre o caminho que uma solicitação percorre nos serviços e componentes.

Estratégias-chave de design

Antes de criar uma estratégia de monitoramento e alertas, execute as seguintes tarefas para sua carga de trabalho como parte de seu planejamento de confiabilidade:

Identifique fluxos críticos e não críticos.
Realize a análise do modo de falha (FMA) para os fluxos.
Identifique metas de confiabilidade.
Projete uma estratégia de teste robusta.

Crie uma estratégia de monitoramento e alertas para conscientizar suas equipes de operações para que elas sejam notificadas sobre alterações na condição de sua carga de trabalho e possam resolver problemas rapidamente. O modelo de integridade para seus fluxos críticos e para as cargas de trabalho que incluem fluxos críticos deve definir estados íntegros, degradados e não íntegros. Projete sua postura de monitoramento para detectar imediatamente as mudanças nesses estados. Quando os estados de integridade mudam de íntegros para degradados ou não íntegros, os mecanismos de alerta devem desencadear medidas automáticas de recuperação e alertas para as equipes responsáveis.

Implemente as recomendações a seguir para criar uma estratégia de monitoramento e alertas que atenda aos requisitos de sua empresa.

Orientações gerais

Entenda a diferença entre métricas, logs e rastreamentos.

Habilite o registro em log para todos os recursos de nuvem. Use automação e governança em suas implantações para habilitar o registro em log de diagnósticos em todo o seu ambiente.

Encaminhe todos os logs de diagnóstico para um coletor de dados centralizado e uma plataforma de análise, como um workspace do Log Analytics. Se tiver requisitos regionais de soberania de dados, você deverá usar coletores de dados locais nas regiões sujeitas a esses requisitos.

Compensação: There são implicações de custo para armazenar e consultar logs. Observe como a análise e a retenção de logs afetam seu orçamento e determine o melhor equilíbrio de utilização para atender às suas necessidades.

Se as suas cargas de trabalho estiverem sujeitas a uma ou mais estruturas de conformidade, alguns dos logs de componentes que lidam com informações confidenciais também estarão sujeitos a essas estruturas. Envie os logs de componentes relevantes para um sistema de informações de segurança e geranciamento de evento (SIEM), como o Microsoft Sentinel.

Crie uma política de retenção de logs que incorpore os requisitos de retenção de longo prazo que as estruturas de conformidade impõem à sua carga de trabalho.

Use o registro em log estruturado para todas as mensagens de log para otimizar a consulta dos dados do log.

Configure alertas para serem desencadeados quando os valores ultrapassarem limites críticos correlacionados a uma alteração de estado do modelo de integridade, como verde para amarelo ou vermelho. A configuração de limites é uma prática de melhoria contínua. Conforme sua carga de trabalho evolui, os limites definidos por você podem mudar.

Considere o uso de alertas quando os estados melhorarem, como vermelho para amarelo ou vermelho para verde, para que as equipes de operações possam rastrear esses eventos para referência futura.

Visualize a integridade em tempo real do seu ambiente usando painéis personalizados.

Use dados coletados durante incidentes para melhorar continuamente seus modelos de integridade.

Incorpore serviços de monitoramento e alertas da plataforma de nuvem, incluindo integridade no nível da plataforma.

Incorpore monitoramento e análises avançados desenvolvidos especificamente que seu provedor de nuvem oferece, como as ferramentas de insight do Azure Monitor.

Implemente o monitoramento de backup e recuperação para capturar:

O status da replicação de dados para garantir que sua carga de trabalho atinja a recuperação dentro do RPO (Objetivo do Ponto de Recuperação) de destino.
Backups e recuperações com êxito e com falha.
A duração da recuperação para informar seu planejamento de recuperação de desastre.

Monitorar aplicativos e copilotos

Registre dados enquanto o aplicativo ou o copiloto é executado no ambiente de produção. Você precisa de informações suficientes para diagnosticar a causa dos problemas no estado de produção.

Registre eventos em limites de serviço. Inclua uma ID de correlação que flua entre os limites do serviço. Se uma transação fluir por vários serviços e houver falha em um deles, a ID de correlação ajudará você a rastrear solicitações em seu aplicativo e identificar por que houver falha na transação.

Separe o registro de aplicativos e copilotos da auditoria. Os registros de auditoria são comumente mantidos para fins de conformidade ou requisitos normativos e devem ser completos. Para evitar transações descartadas, mantenha os logs de auditoria separados dos logs de diagnóstico.

Use o monitoramento de caixa branca para instrumentar o aplicativo ou copiloto com logs e métricas semânticas. Colete métricas e logs em nível de aplicativo e copiloto, como consumo de memória ou latência de solicitação, do aplicativo ou copiloto para informar um modelo de integridade e detectar e prever problemas.

Use o monitoramento de caixa preta para medir os serviços da plataforma e a experiência do cliente resultante. O monitoramento de caixa preta testa o comportamento do aplicativo ou do copiloto visível externamente, sem conhecimento dos componentes internos do sistema. Essa abordagem é comum para medir SLIs (indicadores de nível de serviço) centrados no cliente, SLOs (objetivos de nível de serviço) e SLAs (contratos de nível de serviço).

Monitorar dados e armazenamento

Monitore as métricas de disponibilidade de seus contêineres de armazenamento. Quando essa métrica fica abaixo de 100%, isso indica gravações com falha. Quedas transitórias na disponibilidade podem acontecer quando seu provedor de nuvem gerencia a carga. Acompanhe as tendências de disponibilidade para determinar se há um problema com sua carga de trabalho. Em alguns casos, uma queda nas métricas de disponibilidade de um contêiner de armazenamento indica um gargalo na camada de computação associada ao contêiner de armazenamento.

Existem muitas métricas a serem monitoradas para bancos de dados. No contexto da confiabilidade, as métricas importantes a serem monitoradas incluem:

Duração da consulta
Tempos limite
Tempos de espera
Pressão de memória
Bloqueios

Facilitação do Power Platform

O Power Platform se integra ao Application Insights, que faz parte do ecossistema do Azure Monitor. Você pode usar essa integração para:

Assine para receber a telemetria capturada pela plataforma do Dataverse no Application Insights em diagnóstico, desempenho e operação realizados pelos aplicativos no banco de dados do Dataverse e dentro dos aplicativos baseados em modelo. Essa telemetria fornece informações que é possível usar para realizar o diagnóstico e solucionar problemas relacionados aos erros e ao desempenho.
Conecte os aplicativos de tela ao Application Insights para usar essas análises a fim de realizar o diagnóstico de problemas, compreender o que os usuários efetivamente fazem com os aplicativos, tomar decisões de negócios melhores e melhorar a qualidade dos aplicativos.
Configure a telemetria do Power Automate para fluir até o Application Insights. Você pode usar essa telemetria para monitorar execuções do fluxo da nuvem e criar alertas para falhas na execução de fluxo da nuvem.
Capture dados de telemetria do seu Microsoft Copilot Studio copiloto para uso no Azure Application Insights. Você pode usar essa telemetria para monitorar mensagens registradas e eventos enviados de e para seu copiloto, tópicos a serem acionados durante conversas do usuário e eventos de telemetria personalizados que podem ser enviados de seus tópicos.

Power Platform recursos registram atividades no Microsoft portal de conformidade do Purview. A maioria dos eventos estará disponível 24 horas depois da atividade. Não use essas informações no monitoramento em tempo real. Para obter mais informações sobre como registrar atividades no Power Platform, consulte:

Sua carga de trabalho do Power Platform pode incluir recursos do Azure. Para saber mais sobre as recomendações de monitoramento para recursos do Azure, consulte Recomendações para projetar e criar um sistema de monitoramento.

O kit de início do CoE do Power Platform é uma implementação de referência que contém um conjunto de componentes e ferramentas projetados para ajudar você a começar a desenvolver uma estratégia para adoção e suporte do Power Platform. O kit fornece automação e ferramentas para ajudar as equipes a criar o monitoramento e a automação necessários para oferecer suporte a um CoE.

Como posso verificar a integridade do meu serviço online?

Lista de verificação de confiabilidade

Consulte o conjunto completo de recomendações.

Lista de verificação de confiabilidade

Compartilhar via

Recomendações para criar uma estratégia confiável de monitoramento e alertas

Estratégias-chave de design

Orientações gerais

Monitorar aplicativos e copilotos

Monitorar dados e armazenamento

Facilitação do Power Platform

Lista de verificação de confiabilidade

Comentários

Recursos adicionais

Compartilhar via

Recomendações para criar uma estratégia confiável de monitoramento e alertas

Estratégias-chave de design

Orientações gerais

Monitorar aplicativos e copilotos

Monitorar dados e armazenamento

Facilitação do Power Platform

Informações relacionadas

Lista de verificação de confiabilidade

Comentários

Recursos adicionais