Gerenciar o ciclo de vida de computadores bare-metal
Este artigo descreve como executar operações de gerenciamento de ciclo de vida em BMMs (computadores bare-metal). Essas etapas devem ser usadas para fins de solução de problemas, para recuperação de falhas ou ao realizar ações de manutenção. Os comandos para gerenciar o ciclo de vida do BMM incluem:
Cuidado
Não execute nenhuma ação nos servidores de gerenciamento sem antes consultar a equipe de suporte da Microsoft. Isso poderá afetar a integridade do cluster do Nexus do Operador.
- Desligar um BMM
- Iniciar um BMM
- Reiniciar um BMM
- Tornar um BMM não programado (cordon sem evacuação)
- Tornar um BMM não programado (cordon sem evacuação)
- Tornar o BMM “agendável” (uncordon)
- Refazer imagem de um BMM
- Substituir um BMM
Importante
As solicitações de comando disruptivas em um nó do KCP (plano de controle do Kubernetes) serão rejeitadas se houver outro comando de ação disruptiva já em execução em outro nó do KCP ou se o KCP completo não estiver disponível. Esta verificação é feita para manter a integridade da instância do Nexus e garantir que vários nós KCP não se tornem não operacionais de uma só vez devido a ações de interrupção simultâneas. Se vários nós se tornarem não operacionais, isso quebrará o limite de quorum íntegro do Painel de Controle do Kubernetes.
As ações em negrito na lista acima são consideradas disruptivas (desligar, reiniciar, refazer imagem, substituir). O cordon sem evacuação não é considerado disruptivo. O cordon com evacuação é considerado disruptivo.
Conforme observado na declaração de advertência, a execução de ações contra servidores de gerenciamento, especialmente nós KCP, deve ser feita somente em consulta com a equipe de suporte da Microsoft.
Pré-requisitos
- Instale a última versão das extensões apropriadas da CLI.
- Obtenha o nome do grupo de recursos para o BMM – nome do grupo de recursos gerenciado do cluster (cluster_MRG) .
- Obtenha o nome do computador bare-metal que requer uma operação de gerenciamento do ciclo de vida.
- Verifique se o computador bare-metal de destino
poweredState
está definido comoOn
ereadyState
está definido comoTrue
.- Esse pré-requisito não é aplicável ao comando
start
.
- Esse pré-requisito não é aplicável ao comando
Desligar um BMM
Esse comando irá power-off
o bareMetalMachineName
especificado.
az networkcloud baremetalmachine power-off \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Iniciar um BMM
Esse comando irá start
o bareMetalMachineName
especificado.
az networkcloud baremetalmachine start \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Reiniciar um BMM
Esse comando irá restart
o bareMetalMachineName
especificado.
az networkcloud baremetalmachine restart \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Tornar um BMM não agendado (cordon)
Para identificar se alguma carga de trabalho está em execução no momento em um BMM, execute o seguinte comando:
Para Máquinas Virtuais:
az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'
Para nós de cluster do Nexus Kubernetes: (requer fazer logon no cluster do Nexus Kubernetes)
kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'
Você pode tornar um BMM não agendado executando o comando cordon
.
Na execução do comando cordon
, as cargas de trabalho do Nexus do Operador não são agendadas no BMM quando o cordon é definido; qualquer tentativa de criar uma carga de trabalho em um BMM cordoned
resultará na carga de trabalho sendo definida para o estado pending
. As cargas de trabalho continuarão a ser executadas.
O comando cordon dá suporte a um parâmetro evacuate
com o valor de False
padrão.
É uma prática recomendada definir isso como True
. Ao executar o comando cordon
, com o valor True
para o parâmetro evacuate
, as cargas de trabalho que estão sendo executadas no BMM são stopped
e o BMM é definido para o estado pending
.
az networkcloud baremetalmachine cordon \
--evacuate "True" \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
O evacuate "True"
remove cargas de trabalho desse nó enquanto evacuate "False"
impede apenas o agendamento de novas cargas de trabalho.
Tornar o BMM “agendável” (uncordon)
Você pode tornar um BMM “agendável” executando o comando uncordon
. Todas as cargas de trabalho em um estado pending
no BMM são restarted
quando o BMM é uncordoned
.
az networkcloud baremetalmachine uncordon \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Refazer imagem de um BMM
Você pode restaurar a versão de runtime em um BMM executando o comando reimage
. Esse processo reimplanta a imagem de runtime no BMM de destino e executa as etapas para reingressar no cluster com os mesmos identificadores. Essa ação não afeta os arquivos de carga de trabalho do locatário neste BMM. Caso uma ação de gravação ou edição seja executada no nó por meio do acesso ao BMM, essa ação de “reimagem” é necessária para restaurar o suporte da Microsoft e as alterações serão perdidas, restaurando o nó ao seu estado esperado.
Como melhor prática, verifique se as cargas de trabalho do BMM foram drenadas usando o comando cordon
, com evacuate "True"
, antes de executar o comando reimage
.
Aviso
Executar mais de um comando baremetalmachine replace
ou reimage
ao mesmo tempo ou executar um replace
ao mesmo tempo que um reimage
deixará os servidores em um estado inoperante. Verifique se um replace
/reimage
foi totalmente concluído antes de iniciar outro.
az networkcloud baremetalmachine reimage \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Substituir um BMM
Use o comando replace
quando um servidor encontrar problemas de hardware que exigem uma substituição de hardware completa ou parcial. Após a substituição de componentes como a placa-mãe ou a substituição da NIC (placa do adaptador de rede), o endereço MAC do BMM será alterado, no entanto, o endereço IP do iDRAC e o nome do host permanecerão os mesmos.
Aviso
Executar mais de um comando baremetalmachine replace
ou reimage
ao mesmo tempo ou executar um replace
ao mesmo tempo que um reimage
deixará os servidores em um estado inoperante. Verifique se um replace
/reimage
foi totalmente concluído antes de iniciar outro.
az networkcloud baremetalmachine replace \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
--bmc-mac-address <IDRAC_MAC> \
--boot-mac-address <PXE_MAC> \
--machine-name <OS_HOSTNAME> \
--serial-number <SERIAL_NUMBER> \
--subscription <subscriptionID>