일반적인 노드 자동 복구 오류 문제 해결
AKS(Azure Kubernetes Service)가 5분 이상 상태의 노드 NotReady
를 검색하면 노드를 자동으로 복구하려고 시도합니다. 노드 자동 복구는 최상의 서비스입니다. 노드를 정상 상태로 복원할 수 있다고 보장하지는 않습니다. 자세한 내용은 노드 자동 복구 프로세스를 참조 하세요.
노드 자동 복구 프로세스 중에 AKS는 reboot
reimage
비정상 노드에서 시작 및 redeploy
작업을 시작합니다. 오류는 다양한 이유로 인해 발생할 수 있으며 Kubernetes 이벤트를 통해 오류 코드가 검색됩니다. Kubernetes 이벤트를 사용하여 노드의 상태 및 자동 복구 작업을 모니터링할 수 있습니다.
이 문서에서는 일반적인 노드 자동 복구 오류에 대한 잠재적 원인과 솔루션을 제공하고 노드 자동 복구 프로세스를 모니터링하기 위한 모범 사례를 간략하게 설명합니다.
필수 조건
다음 Kubernetes 이벤트를 확인하여 노드 자동 복구 오류의 유형을 식별합니다.
원인 | 이벤트 메시지 | 설명 |
---|---|---|
NodeRebootError | 작업 오류로 인해 노드 자동 복구 다시 부팅 작업이 실패했습니다. [여기서 오류 코드] | 작업에 오류가 있을 때 내보냅니다 reboot . |
NodeReimageError | 작업 오류로 인해 노드 자동 복구 이미지 다시 설치 작업이 실패했습니다. [여기서 오류 코드] | 작업에 오류가 있을 때 내보냅니다 reimage . |
NodeRedeployError | 작업 오류로 인해 노드 자동 복구 다시 배포 작업이 실패했습니다. [여기에 오류 코드] | 작업에 오류가 있을 때 내보냅니다 redeploy . |
참고 항목
노드가 자동 복구 프로세스 전에 이미 비정상 상태이므로 대부분의 경우 노드 자동 복구 오류는 클러스터 또는 애플리케이션에 영향을 주지 않습니다. 노드 자동 복구 오류가 발생하면 노드 준비 안 됨 오류에 대한 기본 문제 해결의 지침에 따라 노드를 복구하는 것이 좋습니다. 상태를 복원할 Succeeded
수 없고 노드 자동 복구에서 보고한 영구적 오류를 볼 수 없는 경우 Azure 지원 문의하여 도움을 요청하세요.
일반적인 오류 코드
오류 코드 | 원인 및 솔루션 |
---|---|
VMExtensionProvisioningError | 하나 이상의 VM(가상 머신) 확장을 VM에서 프로비전하지 못했습니다. 가능한 오류 유형 및 문제 해결 단계에 대한 자세한 내용은 ERR_VHD_FILE_NOT_FOUND 오류 코드 문제 해결(124)을 참조하세요. 노드 에서 정확한 VM 확장 프로비저닝 오류를 확인하려면 Azure Portal에서 오류 세부 정보를 확인합니다. |
InvalidParameter | 이 오류는 노드 자동 복구 프로세스가 더 이상 존재하지 않는 노드에 액세스하려고 하면 발생합니다. |
scaleSetNameAndInstanceIDFromProviderID 실패 | 이 문제는 노드가 올바르게 프로비전되지 않을 때 발생합니다. |
ManagedIdentityCredential 인증 실패 | 이 문제는 노드가 올바르게 초기화되지 않은 경우에 발생합니다. |
VMRedeploymentFailed | 이 오류는 노드를 다시 배포하려고 할 때 발생합니다. 이 경우 노드 풀이 실패한 상태로 들어갈 수 있습니다. 잠재적 원인 및 문제 해결 단계에 대한 자세한 내용은 실패한 상태의 Azure Kubernetes Service 클러스터 또는 노드 문제 해결을 참조하세요. |
TooManyVMRedeploymentRequests | 이 오류는 클러스터가 VM 재배포 요청 제한을 초과할 때 발생합니다. Redeploy 는 노드 자동 복구 작업 중 하나입니다. 이 오류는 작업이 노드를 redeploy 복구할 수 없다는 것을 의미합니다. 노드 준비 안 됨 문제를 해결하려면 노드 준비 안 됨 오류의 기본 문제 해결을 참조 하세요. |
OutboundConnectivityNotEnabledOnVMSS | 이 오류는 노드 또는 전체 Virtual Machine Scale Set에 아웃바운드 액세스가 활성화되지 않은 경우에 발생합니다. 이 문제를 해결하려면 애플리케이션에 가장 적합한 방법을 사용하여 확장 집합에 대한 보안 아웃바운드 액세스를 사용하도록 설정합니다. 자세한 내용은 "OutboundConnectivityNotEnabledOnVM. 가상 머신에 대해 구성된 아웃바운드 연결이 없습니다." |
노드 자동 복구 모니터링 모범 사례
AKS는 기본적으로 지난 1시간 동안의 Kubernetes 이벤트를 저장합니다. 최대 90일 동안 이벤트를 저장할 수 있도록 Container Insights를 사용하도록 설정하는 것이 좋습니다. 또한 이벤트를 쿼리하고 경고를 구성하여 노드 자동 복구 오류를 신속하게 검색할 수 있습니다.
노드 자동 복구는 최상의 서비스입니다. 노드를 상태로 복원
Ready
할 수 있다고 보장하지는 않습니다. 노드 준비 안 됨 문제에 대한 경고를 적극적으로 모니터링하고 설정하고 이러한 문제를 직접 해결하고 해결하는 것이 좋습니다. 자세한 내용은 노드 준비 안 됨 문제의 기본 문제 해결을 참조하세요.
도움을 요청하십시오.
질문이 있거나 도움이 필요한 경우 지원 요청을 생성하거나Azure 커뮤니티 지원에 문의하세요. Azure 피드백 커뮤니티에 제품 피드백을 제출할 수도 있습니다.