Condividi tramite


Gestire il ciclo di vita dei computer bare metal

Questo articolo descrive come eseguire operazioni di gestione del ciclo di vita su computer bare metal (BMM). Questi passaggi devono essere usati per la risoluzione dei problemi e per il ripristino da errori o durante l'esecuzione di azioni di manutenzione. I comandi per gestire il ciclo di vita di BMM includono:

Attenzione

Non eseguire alcuna azione sui server di gestione senza prima consultare il personale di supporto Microsoft. Questo potrebbe influire sull'integrità del cluster Operator Nexus.

  • Spegnere un BMM
  • Avviare un BMM
  • Riavviare un BMM
  • Rendere un BMM non pianificabile (cordone senza evacuazione)
  • Rendere un BMM non pianificabile (cordone con evacuazione)
  • Rendere un BMM pianificabile (non eseguire la verifica)
  • Ricreazione dell'immagine di un BMM
  • Sostituire un BMM

Importante

Le richieste di comando di interruzione su un nodo KCP (piano di controllo Kubernetes) vengono rifiutate se è già in esecuzione un altro comando di azione di interruzione su un altro nodo KCP o se il KCP completo non è disponibile. Questo controllo viene eseguito per mantenere l'integrità dell'istanza di Nexus e per assicurarsi che più nodi KCP non diventino non operativi contemporaneamente a causa di azioni di interruzione simultanee. Se più nodi si diventano non operativi, la soglia del quorum integro del piano di controllo Kubernetes verrà interrotta.

Le azioni in grassetto nell'elenco precedente sono considerate di interruzione (Spegnere, Riavviare, Ricreare immagine, Sostituire). Il blocco senza evacuazione non è considerato con interruzioni. Il blocco con evacuazione è considerato con interruzioni.

Come indicato nella dichiarazione di cautela, l'esecuzione di azioni sui server di gestione, in particolare i nodi KCP, deve essere eseguita solo in consultazione con il personale di supporto Microsoft.

Prerequisiti

  1. Installare la versione più recente delle estensioni dell'interfaccia della riga di comando appropriate.
  2. Ottenere il nome del gruppo di risorse per BMM - Nome del gruppo di risorse gestite del cluster (cluster_MRG).
  3. Ottenere il nome del computer bare metal che richiede un'operazione di gestione del ciclo di vita.
  4. Assicurarsi che il computer bare metal di destinazione poweredState sia impostato su On e che readyState sia impostato su True.
    1. Questo prerequisito non è applicabile per il comando start.

Spegnere un BMM

Questo comando eseguirà power-off bareMetalMachineName specificato.

az networkcloud baremetalmachine power-off \
  --name <BareMetalMachineName>  \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Avviare un BMM

Questo comando eseguirà start bareMetalMachineName specificato.

az networkcloud baremetalmachine start \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Riavviare un BMM

Questo comando eseguirà restart bareMetalMachineName specificato.

az networkcloud baremetalmachine restart \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Rendere un BMM non pianificabile (blocco)

Per identificare se i carichi di lavoro sono attualmente in esecuzione in un BMM, eseguire il comando seguente:

Per le macchine virtuali:

az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Per i nodi del cluster Nexus Kubernetes: (richiede l'accesso al cluster Nexus Kubernetes)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

È possibile rendere un BMM non pianificabile eseguendo il comando cordon. Durante l'esecuzione del comando cordon, i carichi di lavoro Operator Nexus non vengono pianificati nel BMM quando viene impostato il blocco. Qualsiasi tentativo di creare un carico di lavoro in un BMM cordoned comporta l'impostazione dello stato pending per il carico di lavoro. I carichi di lavoro esistenti continuano a essere eseguiti. Il comando di blocco supporta un parametro evacuate con il valore predefinito False. È consigliabile impostare su True. Durante l'esecuzione del comando cordon, con il valore True per il parametro evacuate, i carichi di lavoro in esecuzione sul BMM sono stopped e BMM è impostato sullo stato pending.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

evacuate "True" rimuove i carichi di lavoro da tale nodo, mentre evacuate "False" impedisce solo la pianificazione di nuovi carichi di lavoro.

Rendere un BMM "pianificabile" (senza blocco)

È possibile rendere un BMM "pianificabile" (utilizzabile) eseguendo il comando uncordon. Tutti i carichi di lavoro in uno stato pending nel BMM sono restarted quando il BMM è uncordoned.

az networkcloud baremetalmachine uncordon \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Ricreare l'immagine di un BMM

È possibile ripristinare la versione di runtime in un BMM eseguendo il comando reimage. Questo processo ridistribuisce l'immagine di runtime nel BMM di destinazione ed esegue i passaggi per ricongiungere il cluster con gli stessi identificatori. Questa azione non influisce sui file del carico di lavoro del tenant in questo BMM. In caso di esecuzione di un'azione di scrittura o modifica sul nodo tramite l'accesso BMM, questa azione di 'ricreazione dell'immagine' è necessaria per ripristinare il supporto tecnico Microsoft e le modifiche andranno perse, ripristinando il nodo al suo stato previsto. Come procedura consigliata, assicurarsi che i carichi di lavoro del BMM vengano svuotati usando il comando cordon, con evacuate "True", prima di eseguire il comando reimage.

Avviso

L'esecuzione di più di un comando baremetalmachine replace o reimage contemporaneamente o l'esecuzione di replace e reimage contemporaneamente lascerà i server in uno stato non funzionante. Assicurarsi che un replace/reimage sia completato prima di avviarne un altro.

az networkcloud baremetalmachine reimage \
  --name <BareMetalMachineName>  \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Sostituire un BMM

Usare il comando replace quando un server rileva problemi hardware che richiedono una sostituzione hardware completa o parziale. Dopo la sostituzione di componenti come scheda madre o scheda di interfaccia di rete (NIC), l'indirizzo MAC di BMM cambierà, tuttavia l'indirizzo IP iDRAC e il nome host rimarranno invariati.

Avviso

L'esecuzione di più di un comando baremetalmachine replace o reimage contemporaneamente o l'esecuzione di replace e reimage contemporaneamente lascerà i server in uno stato non funzionante. Assicurarsi che un replace/reimage sia completato prima di avviarne un altro.

az networkcloud baremetalmachine replace \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUMBER> \
  --subscription <subscriptionID>