Compartilhar via


Práticas recomendadas de monitoramento proativo para o AKS (Serviço de Kubernetes do Azure)

Este artigo aborda as práticas recomendadas para o monitoramento proativo no AKS (Serviço de Kubernetes do Azure) e fornece uma lista abrangente dos principais sinais que o AKS recomenda que você monitore.

O monitoramento proativo dos clusters do AKS é fundamental para reduzir o tempo de inatividade e evitar interrupções nos negócios para seus aplicativos. Esse processo envolve a identificação e o monitoramento dos principais indicadores de comportamento anormal em seu cluster que podem levar a grandes problemas ou tempo de inatividade.

Visão geral do monitoramento e dos alertas

O monitoramento no AKS envolve o uso de métricas, logs e eventos para garantir a integridade e o desempenho do cluster. Os cenários comuns a serem monitorados incluem o desempenho do nó, o status do pod e a utilização geral de recursos no cluster. Os logs fornecem insights sobre eventos do sistema e operações e atividades do cluster. Para obter mais informações sobre os métodos e sinais que o AKS fornece para monitoramento, confira Monitorar o AKS (Serviço de Kubernetes do Azure).

A melhor maneira de monitorar proativamente o cluster é configurar os alertas do Azure Monitor. Os alertas funcionam como medidas proativas para notificar você sobre possíveis problemas ou anomalias antes que se transformem em problemas críticos. Ao definir limites para as principais métricas e logs, você receberá alertas imediatos quando esses sinais ultrapassarem os limites predefinidos, indicando possíveis problemas, como esgotamento de recursos ou falhas nos aplicativos. É altamente recomendável definir objetivos de nível de serviço (SLOs) para o seu aplicativo a fim de medir o desempenho e a confiabilidade do serviço. A configuração de alertas sobre os principais sinais de seus SLOs permite detectar rapidamente qualquer degradação da qualidade do serviço do aplicativo que seus clientes recebem. Em geral, a configuração de alertas oportunos permite investigar e corrigir rapidamente os problemas, minimizando o tempo de inatividade e garantindo a alta disponibilidade dos aplicativos em execução no cluster do AKS.

Como configurar alertas em tipos específicos de métricas

Tipo de métrica Onde encontrar essas métricas Como configurar alertas
Métrica da plataforma do AKS Exiba as métricas da plataforma por meio do painel Métricas no portal do Azure. Você pode criar, atualizar e excluir alertas de métrica por meio do portal do Azure. Para obter mais informações, confira Criar um alerta de métrica para um recurso do Azure.
Métrica do Prometheus Gerenciado pelo Azure Para acessar as métricas do Prometheus, é necessário habilitar o Prometheus Gerenciado. Para obter detalhes sobre como habilitar e exibir as métricas do Prometheus, confira Azure Monitor e Prometheus. Para obter diretrizes sobre como configurar alertas do Prometheus, confira Serviço gerenciado do Azure Monitor para grupos de regras do Prometheus.
Logs de atividades do Azure Exibir logs de atividades por meio do portal do Azure. Para obter mais informações, confira Logs de atividades do Azure para AKS. Configure alertas nos logs de atividades por meio do portal do Azure. Para obter mais informações, veja Alertas do log de atividades.
Métrica de conjunto de dimensionamento de máquinas virtuais do Azure Exiba as métricas do conjunto de dimensionamento de máquinas virtuais no portal do Azure. 1. Para localizar a instância do conjunto de dimensionamento de máquinas virtuais associada ao seu pool de nós, navegue até o painel Configurações > Propriedades do seu cluster do AKS no portal do Azure.
2. Selecione seu grupo de recursos de infraestrutura para exibir os recursos de infraestrutura associados ao cluster.
3. Selecione a instância do conjunto de dimensionamento de máquinas virtuais que corresponde ao nome do pool de nós para o qual você está criando alertas.
4. Navegue até o painel Alertas para criar seu alerta de métrica.
Métricas do Load Balancer Exiba as métricas do balanceador de carga por meio da página do Load Balancer no portal do Azure. 1. Para localizar a instância do balanceador de carga associada ao seu pool de nós, navegue até o painel Configurações > Propriedades do seu cluster do AKS no portal do Azure.
2. Selecione seu grupo de recursos de infraestrutura para exibir os recursos de infraestrutura associados ao cluster.
3. Selecione a instância do balanceador de carga para abrir a página do portal do Azure para o balanceador de carga.
4. Navegue até a página Alertas para criar seu alerta de métrica do balanceador de carga.
Logs e eventos Para alertar sobre logs e eventos, é necessário habilitar os Insights do Contêiner. Para obter mais informações, confira Logs de recursos do Azure Monitor. Para obter diretrizes sobre como criar alertas em logs e eventos, confira Criar alertas de pesquisa de logs de Insights do Contêiner.

Sinais críticos para configurar alertas

Para obter uma cobertura holística do seu ambiente do AKS, você precisa configurar alertas nos três principais componentes do cluster:

  • Infraestrutura de cluster: alertas direcionados à infraestrutura subjacente do cluster, como nós, discos e rede.
  • Integridade do aplicativo: alertas para monitorar a integridade de pods e aplicativos. Alguns indicadores comuns de aplicativos insalubres incluem mortes fora da memória (OOMKills) de pods, pods em estado não pronto etc.
  • Plano de controle do Kubernetes: alertas no plano de controle do AKS para monitorar a integridade e o desempenho do servidor de API, etcd e outros componentes.

As seções a seguir contêm os principais sinais que recomendamos que todos os clientes do AKS monitorem de perto. A equipe do AKS está trabalhando para adicionar todos os sinais críticos ao recurso existente de Alertas Recomendados, que permite ativar facilmente os alertas para todos os sinais com um clique. Os alertas de métricas do Prometheus estão disponíveis na Visualização Pública hoje, e estima-se que os alertas restantes estejam disponíveis no início de 2025. Por enquanto, você pode configurar manualmente os alertas sobre os sinais críticos.

Alertas de infraestrutura de cluster

Cenário de alerta Origem Sinal Limite recomendado
O cluster está em um estado de falha Logs de atividades do Azure Criar ou atualizar um cluster gerenciado O status do log falhou, indicando que a ação de upgrade ou criação do cluster falhou.
O pool de nós está em um estado com falha Logs de atividades do Azure Criar ou atualizar pool de agentes O status do log falhou, indicando que o pool de nós está em um estado com falha devido a uma operação CRUD (Criar, Ler, Atualizar ou Excluir) com falha.
Alto uso da largura de banda do disco do sistema operacional do nó Métrica do conjunto de dimensionamento de máquinas virtuais Percentual Consumido de Largura de Banda do Disco do OS A utilização da largura de banda do disco do sistema operacional do nó está acima de 95%.
Alto uso de IOPS de disco do sistema operacional do nó Métrica do conjunto de dimensionamento de máquinas virtuais Percentual Consumido de IOPS do Disco do SO A utilização de IOPS do disco do so do nó está acima de 95%.
Alto uso de espaço em disco do sistema operacional do nó Métrica da plataforma do AKS Percentual de disco usado A porcentagem de utilização do espaço em disco do sistema operacional do nó está acima de 90%.
Alto uso de CPU de nó Métrica da plataforma do AKS Percentual de Uso de CPU O uso da CPU do nó é maior que 90%.
Alto uso de memória do nó Métrica da plataforma do AKS Porcentagem do conjunto de trabalho de memória O uso de memória do nó é maior que 90%.
O nó está no estado NotReady Métrica da plataforma do AKS Status para as várias condições de nó O nó está no estado NotReady por >20 minutos.
Esgotamento de porta SNAT Métrica de LB (balanceador de carga) Contagem de Conexões SNAT Filtro para estado de conexão = "Falha"

Alertas de integridade do aplicativo

Cenário de alerta Origem Sinal Limite recomendado
Alto número de pods não íntegros Métrica do Prometheus Gerenciado pelo Azure Nome do alerta: KubePodReadyStateLow Disponível como um alerta recomendado pelo AKS. Para habilitar esse alerta, confira Regras de alerta recomendadas para clusters do Kubernetes.
Um ou mais pods estão sendo reiniciados Métrica do Prometheus Gerenciado pelo Azure Nome do alerta: KubePodContainerRestart Disponível como um alerta recomendado pelo AKS. Para habilitar esse alerta, confira Regras de alerta recomendadas para clusters do Kubernetes.
Um ou mais pods estão no status CrashLoop Métrica do Prometheus Gerenciado pelo Azure Nome do alerta: KubePodCrashLooping Disponível como um alerta recomendado pelo AKS. Para habilitar esse alerta, confira Regras de alerta recomendadas para clusters do Kubernetes.

Alertas do painel de controle do Kubernetes

Cenário de alerta Origem Sinal Limite recomendado
ETCD está preenchido Métrica do Prometheus Gerenciado pelo Azure etcd_mvcc_db_total_size_in_use_in_bytes A utilização do ETCD é maior que 2 GB
Muitos erros de solicitações do servidor de API Métrica do Prometheus Gerenciado pelo Azure apiserver_request_total Filtrar o código de erro 429
Erros de webhook e túnel do servidor de API Métrica do Prometheus Gerenciado pelo Azure apiserver_request_total Filtrar os códigos de erro 500 e 503

Próximas etapas

Para obter mais informações sobre o monitoramento no AKS, consulte os seguintes artigos: