Práticas recomendadas de monitoramento proativo para o AKS (Serviço de Kubernetes do Azure)

Artigo
11/12/2024

Este artigo aborda as práticas recomendadas para o monitoramento proativo no AKS (Serviço de Kubernetes do Azure) e fornece uma lista abrangente dos principais sinais que o AKS recomenda que você monitore.

O monitoramento proativo dos clusters do AKS é fundamental para reduzir o tempo de inatividade e evitar interrupções nos negócios para seus aplicativos. Esse processo envolve a identificação e o monitoramento dos principais indicadores de comportamento anormal em seu cluster que podem levar a grandes problemas ou tempo de inatividade.

Visão geral do monitoramento e dos alertas

O monitoramento no AKS envolve o uso de métricas, logs e eventos para garantir a integridade e o desempenho do cluster. Os cenários comuns a serem monitorados incluem o desempenho do nó, o status do pod e a utilização geral de recursos no cluster. Os logs fornecem insights sobre eventos do sistema e operações e atividades do cluster. Para obter mais informações sobre os métodos e sinais que o AKS fornece para monitoramento, confira Monitorar o AKS (Serviço de Kubernetes do Azure).

A melhor maneira de monitorar proativamente o cluster é configurar os alertas do Azure Monitor. Os alertas funcionam como medidas proativas para notificar você sobre possíveis problemas ou anomalias antes que se transformem em problemas críticos. Ao definir limites para as principais métricas e logs, você receberá alertas imediatos quando esses sinais ultrapassarem os limites predefinidos, indicando possíveis problemas, como esgotamento de recursos ou falhas nos aplicativos. É altamente recomendável definir objetivos de nível de serviço (SLOs) para o seu aplicativo a fim de medir o desempenho e a confiabilidade do serviço. A configuração de alertas sobre os principais sinais de seus SLOs permite detectar rapidamente qualquer degradação da qualidade do serviço do aplicativo que seus clientes recebem. Em geral, a configuração de alertas oportunos permite investigar e corrigir rapidamente os problemas, minimizando o tempo de inatividade e garantindo a alta disponibilidade dos aplicativos em execução no cluster do AKS.

Como configurar alertas em tipos específicos de métricas

Tipo de métrica	Onde encontrar essas métricas	Como configurar alertas
Métrica da plataforma do AKS	Exiba as métricas da plataforma por meio do painel Métricas no portal do Azure.	Você pode criar, atualizar e excluir alertas de métrica por meio do portal do Azure. Para obter mais informações, confira Criar um alerta de métrica para um recurso do Azure.
Métrica do Prometheus Gerenciado pelo Azure	Para acessar as métricas do Prometheus, é necessário habilitar o Prometheus Gerenciado. Para obter detalhes sobre como habilitar e exibir as métricas do Prometheus, confira Azure Monitor e Prometheus.	Para obter diretrizes sobre como configurar alertas do Prometheus, confira Serviço gerenciado do Azure Monitor para grupos de regras do Prometheus.
Logs de atividades do Azure	Exibir logs de atividades por meio do portal do Azure. Para obter mais informações, confira Logs de atividades do Azure para AKS.	Configure alertas nos logs de atividades por meio do portal do Azure. Para obter mais informações, veja Alertas do log de atividades.
Métrica de conjunto de dimensionamento de máquinas virtuais do Azure	Exiba as métricas do conjunto de dimensionamento de máquinas virtuais no portal do Azure.	1. Para localizar a instância do conjunto de dimensionamento de máquinas virtuais associada ao seu pool de nós, navegue até o painel Configurações > Propriedades do seu cluster do AKS no portal do Azure. 2. Selecione seu grupo de recursos de infraestrutura para exibir os recursos de infraestrutura associados ao cluster. 3. Selecione a instância do conjunto de dimensionamento de máquinas virtuais que corresponde ao nome do pool de nós para o qual você está criando alertas. 4. Navegue até o painel Alertas para criar seu alerta de métrica.
Métricas do Load Balancer	Exiba as métricas do balanceador de carga por meio da página do Load Balancer no portal do Azure.	1. Para localizar a instância do balanceador de carga associada ao seu pool de nós, navegue até o painel Configurações > Propriedades do seu cluster do AKS no portal do Azure. 2. Selecione seu grupo de recursos de infraestrutura para exibir os recursos de infraestrutura associados ao cluster. 3. Selecione a instância do balanceador de carga para abrir a página do portal do Azure para o balanceador de carga. 4. Navegue até a página Alertas para criar seu alerta de métrica do balanceador de carga.
Logs e eventos	Para alertar sobre logs e eventos, é necessário habilitar os Insights do Contêiner. Para obter mais informações, confira Logs de recursos do Azure Monitor.	Para obter diretrizes sobre como criar alertas em logs e eventos, confira Criar alertas de pesquisa de logs de Insights do Contêiner.

Sinais críticos para configurar alertas

Para obter uma cobertura holística do seu ambiente do AKS, você precisa configurar alertas nos três principais componentes do cluster:

Infraestrutura de cluster: alertas direcionados à infraestrutura subjacente do cluster, como nós, discos e rede.
Integridade do aplicativo: alertas para monitorar a integridade de pods e aplicativos. Alguns indicadores comuns de aplicativos insalubres incluem mortes fora da memória (OOMKills) de pods, pods em estado não pronto etc.
Plano de controle do Kubernetes: alertas no plano de controle do AKS para monitorar a integridade e o desempenho do servidor de API, etcd e outros componentes.

As seções a seguir contêm os principais sinais que recomendamos que todos os clientes do AKS monitorem de perto. A equipe do AKS está trabalhando para adicionar todos os sinais críticos ao recurso existente de Alertas Recomendados, que permite ativar facilmente os alertas para todos os sinais com um clique. Os alertas de métricas do Prometheus estão disponíveis na Visualização Pública hoje, e estima-se que os alertas restantes estejam disponíveis no início de 2025. Por enquanto, você pode configurar manualmente os alertas sobre os sinais críticos.

Alertas de infraestrutura de cluster

Cenário de alerta	Origem	Sinal	Limite recomendado
O cluster está em um estado de falha	Logs de atividades do Azure	Criar ou atualizar um cluster gerenciado	O status do log falhou, indicando que a ação de upgrade ou criação do cluster falhou.
O pool de nós está em um estado com falha	Logs de atividades do Azure	Criar ou atualizar pool de agentes	O status do log falhou, indicando que o pool de nós está em um estado com falha devido a uma operação CRUD (Criar, Ler, Atualizar ou Excluir) com falha.
Alto uso da largura de banda do disco do sistema operacional do nó	Métrica do conjunto de dimensionamento de máquinas virtuais	Percentual Consumido de Largura de Banda do Disco do OS	A utilização da largura de banda do disco do sistema operacional do nó está acima de 95%.
Alto uso de IOPS de disco do sistema operacional do nó	Métrica do conjunto de dimensionamento de máquinas virtuais	Percentual Consumido de IOPS do Disco do SO	A utilização de IOPS do disco do so do nó está acima de 95%.
Alto uso de espaço em disco do sistema operacional do nó	Métrica da plataforma do AKS	Percentual de disco usado	A porcentagem de utilização do espaço em disco do sistema operacional do nó está acima de 90%.
Alto uso de CPU de nó	Métrica da plataforma do AKS	Percentual de Uso de CPU	O uso da CPU do nó é maior que 90%.
Alto uso de memória do nó	Métrica da plataforma do AKS	Porcentagem do conjunto de trabalho de memória	O uso de memória do nó é maior que 90%.
O nó está no estado NotReady	Métrica da plataforma do AKS	Status para as várias condições de nó	O nó está no estado NotReady por >20 minutos.
Esgotamento de porta SNAT	Métrica de LB (balanceador de carga)	Contagem de Conexões SNAT	Filtro para estado de conexão = "Falha"

Alertas de integridade do aplicativo

Cenário de alerta	Origem	Sinal	Limite recomendado
Alto número de pods não íntegros	Métrica do Prometheus Gerenciado pelo Azure	Nome do alerta: KubePodReadyStateLow	Disponível como um alerta recomendado pelo AKS. Para habilitar esse alerta, confira Regras de alerta recomendadas para clusters do Kubernetes.
Um ou mais pods estão sendo reiniciados	Métrica do Prometheus Gerenciado pelo Azure	Nome do alerta: KubePodContainerRestart	Disponível como um alerta recomendado pelo AKS. Para habilitar esse alerta, confira Regras de alerta recomendadas para clusters do Kubernetes.
Um ou mais pods estão no status CrashLoop	Métrica do Prometheus Gerenciado pelo Azure	Nome do alerta: KubePodCrashLooping	Disponível como um alerta recomendado pelo AKS. Para habilitar esse alerta, confira Regras de alerta recomendadas para clusters do Kubernetes.

Alertas do painel de controle do Kubernetes

Cenário de alerta	Origem	Sinal	Limite recomendado
ETCD está preenchido	Métrica do Prometheus Gerenciado pelo Azure	etcd_mvcc_db_total_size_in_use_in_bytes	A utilização do ETCD é maior que 2 GB
Muitos erros de solicitações do servidor de API	Métrica do Prometheus Gerenciado pelo Azure	apiserver_request_total	Filtrar o código de erro 429
Erros de webhook e túnel do servidor de API	Métrica do Prometheus Gerenciado pelo Azure	apiserver_request_total	Filtrar os códigos de erro 500 e 503

Próximas etapas

Para obter mais informações sobre o monitoramento no AKS, consulte os seguintes artigos:

Compartilhar via