Recomendações para responder a problemas de performance ao vivo

Artigo
10/16/2024

Aplica-se a esta recomendação da lista de verificação de eficiência de desempenho bem arquitetada: Power Platform

Responder a problemas de performance ao vivo. Planeje como abordar problemas de desempenho incorporando linhas claras de comunicação e responsabilidades. Quando ocorrer uma situação problemática, use o que você aprendeu para identificar medidas preventivas e incorporá-las à sua carga de trabalho. Implemente métodos para retornar às operações normais mais rapidamente quando situações semelhantes ocorrerem.

Este guia descreve as melhores práticas para responder a problemas de apresentações ao vivo. Problemas de desempenho ao vivo referem-se a desafios e gargalos em tempo real que podem dificultar o funcionamento ideal de uma carga de trabalho. Resolver esses problemas prontamente não apenas facilita a detecção e a correção imediata de problemas de desempenho, mas também garante que a carga de trabalho atenda consistentemente seus padrões de desempenho. Não lidar com eles pode levar a complicações, incluindo lentidão, travamentos e falta de resposta do sistema, além de prejudicar a experiência do usuário. Eles também podem impedir que os usuários concluam suas tarefas com eficiência e, por sua vez, manchar a reputação da organização.

Definições

Termo	Definição
Correlação de dados	Alinhar logs, métricas e eventos de várias partes da sua carga de trabalho para identificar as causas subjacentes.
Análise de causa raiz	Um processo para identificar os fatores subjacentes que são responsáveis por um problema.
Autocura	A capacidade de reparar problemas automaticamente sem intervenção humana.
Autoprevenção	Implementações dentro de uma carga de trabalho para evitar possíveis problemas e falhas.

Estratégias-chave de design

Quando você tiver um problema com uma apresentação ao vivo, precisará estar preparado com os dados corretos e um plano para responder ao problema. Este plano deve incluir linhas claras de comunicação e responsabilidades. O objetivo principal é identificar se os problemas de desempenho são temporários ou isolados, identificar a causa raiz do problema de desempenho e implementar soluções que facilitem um rápido retorno às operações normais e forneçam insights sobre o incidente. Integrar medidas preventivas ao seu fluxo de trabalho é uma estratégia fundamental. O objetivo é evitar que o mesmo problema aconteça novamente ou diminuir seus efeitos no desempenho, caso não seja possível evitá-lo.

Prepare-se para problemas

O resposta ideal para problemas de desempenho de sites ao vivo é preciso e rápido. Precisão e rapidez na recuperação do desempenho exigem preparação. Para responder efetivamente a problemas de desempenho ao vivo, é crucial monitorar as principais métricas de desempenho, identificar a causa raiz dos problemas e implementar soluções ou otimizações apropriadas. Para executar essas etapas, talvez seja necessário analisar logs de carga de trabalho, realizar testes de desempenho e otimizar código ou configurações.

Os exemplos a seguir descrevem algumas áreas críticas de preparação:

Tenha diagramas de arquitetura precisos. Seus diagramas de arquitetura devem incluir todos os componentes e mostrar como eles interagem. A representação visual pode ajudar a identificar gargalos e pontos únicos de falha que podem levar à degradação do desempenho ou indisponibilidade. O ideal é que você identifique e remova esses problemas antes que eles causem problemas, mas ter um diagrama atualizado pode ajudar a identificar problemas em momentos de alto estresse.
Verifique o acesso aos dados. Dados e registros de processos de monitoramento são essenciais para responder a problemas de desempenho em tempo real e conduzir análises de causa raiz. Mas é importante manter a integridade e a confidencialidade dos dados. Responder a problemas de desempenho do site ativo geralmente requer acesso a dados subjacentes que normalmente não seriam acessíveis. Você precisa garantir que o pessoal tenha acesso aos dados necessários quando surgirem problemas. Mas você deve conceder apenas acesso com restrição de tempo e privilégios mínimos, e deve limitar esse acesso ao pessoal autorizado.
Defina alertas automáticos. Os alertas podem ajudar você a identificar e resolver problemas assim que eles ocorrem. Os alertas devem gerar notificações quando o desempenho da carga de trabalho se desvia das linhas de base de desempenho. Com o tempo, você deve ajustar as configurações de alerta para evitar gerar muitas ou poucas notificações. As soluções de monitoramento que você usa precisam coletar dados suficientes para gerar alertas. Esses alertas devem alinhar com metas de desempenho e linhas de base estabelecidas. Você deve evitar gerar alertas sobre problemas que não sejam relevantes para seus objetivos. Exemplos de alertas incluem degradações em tempos de resposta, desempenho de chamadas de API ou plug-ins e carregamentos de páginas. Dataverse

Crie um plano de triagem

A criação de um plano de triagem envolve elaborar uma abordagem estruturada para identificar, escalar, analisar, priorizar e comunicar problemas de desempenho do site ativo. Um plano de triagem é uma estratégia para responder a problemas de apresentações ao vivo. Ela garante que interrupções no desempenho sejam tratadas de forma rápida e eficaz, com funções e procedimentos claros. A maioria dos problemas de desempenho não justificam protocolos de recuperação de desastres, mas podem afetar a funcionalidade da carga de trabalho o suficiente para exigir planejamento de triagem. Um plano de triagem bem documentado garante que todos os membros da equipe estejam alinhados e possam agir rapidamente, minimizando o impacto sobre os usuários e as cargas de trabalho. Um plano de triagem deve incluir os seguintes componentes:

Identificação e monitoramento: Implementar um sistema para identificar e monitorar problemas de desempenho em tempo real. Você deve ter uma lista de informações de contato de pessoas capazes de tomar decisões ou encaminhar problemas para níveis mais altos. O plano também deve identificar funções e responsabilidades. É preciso documentar quais contas ganham acesso a informações protegidas e por quanto tempo.
Processo de escalonamento: Defina um processo de escalonamento claro para garantir que os problemas de desempenho sejam encaminhados às equipes ou indivíduos apropriados em tempo hábil. A definição do processo deve incluir informações de contato e diretrizes para encaminhamento de problemas.
Análise de causa raiz: Desenvolva um processo para conduzir uma análise de causa raiz para identificar a causa subjacente de cada problema de desempenho. O processo deve envolver a análise de logs e métricas de desempenho e a realização de testes de diagnóstico para identificar a origem de cada problema.
Priorização: Estabeleça uma estrutura de priorização para determinar a gravidade dos problemas de desempenho e priorizá-los com base em seu efeito na carga de trabalho e nos usuários.
Comunicação: Crie um plano de comunicação para manter as partes interessadas informadas sobre o status dos problemas de desempenho e o progresso de sua resolução. Considere atualizações regulares, relatórios de status e canais de comunicação claros.
Documentação: Documente o plano de triagem, incluindo todas as suas etapas, processos e melhores práticas. Esta documentação deve ser facilmente acessível aos membros da equipe envolvidos na resposta a problemas de desempenho.

Desenvolver métodos para identificar e resolver problemas

Resolver problemas de desempenho ao vivo envolve identificar e abordar quaisquer fatores que podem causar degradação de desempenho ou ineficiências em uma carga de trabalho ao vivo. Os dados coletados durante o monitoramento são inestimáveis para investigar e resolver incidentes relacionados ao desempenho. Esses dados fornecem um registro histórico de métricas de desempenho. Quando você tem dados de monitoramento disponíveis, você pode analisar as causas raiz e identificar fatores contribuintes. Você deve usar todos os dados de monitoramento relevantes para entender e corrigir cada problema de desempenho. Monitore quantos picos transitórios você está detectando e ajuste os limites adequadamente.

Use a análise da causa raiz

A análise da causa raiz requer testes de hipóteses. Depois de revisar os dados de monitoramento, você deve listar as possíveis causas do problema de desempenho e testá-las.

Para conduzir uma análise de causa raiz em um problema de apresentação ao vivo, siga estas etapas:

Reúna informações. Colete o máximo de informações possível sobre o problema de desempenho. Exemplos incluem mensagens de erro, logs, métricas de desempenho e quaisquer outros dados relevantes. Inclua também informações sobre os usuários que relataram o problema, como seu dispositivo, rede e localização.
Defina o problema. Defina claramente o problema identificando os sintomas e o efeito que o problema tem na carga de trabalho ou nos usuários.
Investigue possíveis causas. Restrinja o escopo da análise identificando o componente ou área específica da carga de trabalho onde o problema de desempenho está ocorrendo. Identifique as possíveis causas do problema de desempenho com base nas informações coletadas. Esse processo pode envolver análise de código, definições de configuração, infraestrutura ou dependências externas.
Correlacionar dados. Analise mais profundamente os dados coletados para identificar padrões, anomalias ou correlações que podem contribuir para o problema de desempenho. A correlação de dados é essencial para identificar problemas de desempenho e suas causas. Pode envolver a revisão de logs, a análise de métricas de desempenho e a realização de testes.
Testar hipóteses. Formule hipóteses com base nas causas potenciais que você identificar. Realize testes para validar ou refutar suas hipóteses. Você deve usar um ambiente de teste para ver se consegue replicar o erro.
Implementar soluções. Depois de identificar a causa raiz, desenvolva e implemente soluções para resolver o problema de desempenho.
Monitore e valide. Depois de implementar as soluções, monitore continuamente a carga de trabalho para garantir que o problema de desempenho seja resolvido. Valide a eficácia das soluções monitorando métricas de desempenho e feedback do usuário.

Tradeoff: As etapas de uma análise de causa raiz, como identificar possíveis causas, testar hipóteses e documentar a análise, podem consumir muito tempo. Para correlacionar problemas de desempenho, você também precisa coletar e armazenar dados. O tempo e a infraestrutura necessários podem adicionar trabalho significativo às equipes de operações e aumentar o custo da carga de trabalho.

Risco: Se você realizar uma análise de causa raiz sem as devidas proteções de segurança, There corre o risco de expor informações confidenciais ao fornecer acesso a logs e dados.

Engajar Microsoft Suporte

Entre em contato com o Microsoft Suporte para ajudar a resolver problemas contínuos de desempenho. Microsoft Os representantes de suporte não só têm a experiência, as ferramentas, os recursos e a competência para resolver problemas, mas também podem estar cientes de quaisquer problemas atuais de desempenho global ou interrupções que possam afetar sua carga de trabalho. Seu contrato de suporte determina o nível de suporte fornecido.

Geralmente é melhor trabalhar em paralelo com o Suporte. Microsoft Por exemplo, considere uma estratégia na qual alguns membros da equipe colaboram com o Suporte, enquanto outros continuam a triagem e a corrigir problemas de desempenho. Microsoft

É importante disponibilizar as informações de contato do suporte para a equipe. Tenha em mente que Microsoft o suporte também pode precisar de acesso aos dados para se envolver efetivamente na resolução de problemas.

Para obter mais informações, consulte Obter ajuda e suporte em Power Platform.

Aprenda com as descobertas

Depois de corrigir um problema de desempenho do site ativo, você precisa revisar o que aconteceu. O objetivo é aprender com os problemas de desempenho, não apenas identificá-los. A melhor maneira de aprender é por meio da documentação. Documente cada problema e explique como corrigi-lo. Se um fornecedor ajudou, trabalhe com ele para aprimorar sua documentação, treinar sua equipe e modificar sua carga de trabalho adequadamente.

A documentação deve indicar como evitar que cada problema aconteça novamente. Junto com a documentação, você pode criar alertas refinados que ajudam a responder antecipadamente aos indicadores de problemas de desempenho.

Facilitação do Power Platform

Power Platform e o Azure fornecem diversas ferramentas para ajudar você a responder a problemas de desempenho ao vivo:

O Azure Monitor é uma solução de monitoramento abrangente que fornece insights sobre o desempenho e a integridade de seus aplicativos e infraestrutura. O Azure Monitor oferece recursos como métricas, logs, alertas e painéis para ajudar você a monitorar e diagnosticar problemas de desempenho. Power Platform aplicativos e automação podem ser integrados ao Azure Monitor usando o recurso. Application Insights A telemetria padrão juntamente com eventos de rastreamento personalizados podem ser registrados e analisados.
Application Insights é um serviço de geranciamento de desempenho de aplicativos (APM) que ajuda desenvolvedores e profissionais de DevOps a monitorar aplicativos ativos. Ele detecta automaticamente anomalias de desempenho, coleta logs e eventos no nível do aplicativo e fornece ferramentas analíticas para diagnosticar problemas. Power Platform integra-se com Application Insights.
O Log Analytics é um serviço que coleta e analisa dados de log de várias fontes, incluindo aplicativos, máquinas virtuais e recursos do Azure. Ao usar o Log Analytics, você pode consultar e analisar dados de log para obter insights sobre o desempenho e o comportamento dos seus aplicativos. Considere usar o Log Analytics se sua carga de trabalho usar recursos do Azure.
O Solution Checker executa análises estáticas avançadas em suas soluções em relação a um conjunto de regras de melhores práticas e identifica padrões problemáticos. Resolva quaisquer problemas relacionados ao desempenho antes de implantar a solução na produção para evitar problemas de desempenho no site ativo.

Lista de verificação Eficiência de Desempenho

Consulte o conjunto completo de recomendações.

Lista de verificação de eficiência de desempenho

Compartilhar via