ベア メタル マシンのライフサイクルを管理する
この記事では、ベア メタル マシン (BMM) でライフサイクル管理操作を実行する方法について説明します。 これらの手順は、障害から復旧するためのトラブルシューティングや、メンテナンスアクションの実行時に使用する必要があります。 BMM のライフサイクルを管理するコマンドには以下のものがあります:
注意事項
Microsoft サポート担当者と最初に相談することなく、管理サーバーに対してアクションを実行しないでください。 これを行うと、Operator Nexus Cluster の整合性に影響する可能性があります。
- BMM の電源をオフにする
- BMM を起動する
- BMM を再起動する
- BMM をスケジュール不可にする (退避のない切断)
- BMM をスケジュール不可にする (退避のある切断)
- BMM をスケジュール可能にする (uncordon)
- BMM を再イメージ化する
- BMM を置き換える
重要
Kubernetes コントロール プレーン (KCP) ノードに対する中断を伴うコマンド要求は、別の KCP ノードに対して既に実行されている別の中断を伴うアクション コマンドがある場合、または KCP 全体が使用できない場合は拒否されます。 この確認が行われるのは、Nexus インスタンスの整合性を維持し、同時の中断を伴うアクションが原因で複数の KCP ノードが一度に動作不能にならないようにするためです。 複数のノードが動作不能になると、Kubernetes コントロール プレーンの正常なクォーラムのしきい値を満たさなくなります。
上記の一覧の太字のアクションは、破壊的と見なされます (電源オフ、再起動、再イメージ化、置き換え)。 退避のない切断は破壊的と見なされません。 退避のある切断は破壊的と見なされます。
注意書きで説明したように、管理サーバー (特に KCP ノード) に対するアクションは、Microsoft サポート担当者と相談した上でのみ実行する必要があります。
前提条件
- 適切な CLI 拡張機能の最新バージョンをインストールします。
- BMM のリソース グループの名前を取得します - クラスター管理対象リソース グループ名 (cluster_MRG)。
- ライフサイクル管理操作を必要とするベア メタル マシンの名前を取得します。
- ターゲットのベア メタル マシン
poweredState
がOn
に設定され、readyState
がTrue
に設定されていることを確認します。- この前提条件は
start
コマンドには適用されません。
- この前提条件は
BMM の電源をオフにする
このコマンドは、指定された bareMetalMachineName
を power-off
します。
az networkcloud baremetalmachine power-off \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
BMM を起動する
このコマンドは、指定された bareMetalMachineName
を start
します。
az networkcloud baremetalmachine start \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
BMM を再起動する
このコマンドは、指定された bareMetalMachineName
を restart
します。
az networkcloud baremetalmachine restart \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
BMM をスケジュール不可にする (cordon)
ワークロードが BMM で現在実行されているかどうかを確認するには、次のコマンドを実行します。
Virtual Machines の場合:
az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'
Nexus Kubernetes クラスター ノードの場合: (Nexus Kubernetes クラスターへのログインが必要)
kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'
cordon
コマンドを実行することで、BMM をスケジュール不可能にすることができます。
cordon
コマンドの実行時、cordon が設定されている場合、Operator Nexus ワークロードは BMM でスケジュールされません。cordoned
BMM にワークロードを作成しようとすると、ワークロードが pending
状態に設定されます。 既存のワークロードは引き続き実行されます。
cordon コマンドは、既定値 False
の evacuate
パラメーターをサポートします。
これを True
に設定することをお勧めします。 evacuate
パラメーターの値 True
を指定して cordon
コマンドを実行すると、BMM で実行されているワークロードが stopped
で、BMM が pending
状態に設定されます。
az networkcloud baremetalmachine cordon \
--evacuate "True" \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
evacuate "True"
により、そのノードからワークロードが削除されますが、evacuate "False"
は新しいワークロードのスケジュール設定を妨げるだけです。
BMM を "スケジュール可能" にする (切断を解除する)
uncordon
コマンドを実行することで、BMM を "スケジュール可能" (使用可能) にすることができます。 BMM が uncordoned
になると、BMM の pending
状態のすべてのワークロードが restarted
になります。
az networkcloud baremetalmachine uncordon \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
BMM を再イメージ化する
reimage
コマンドを実行して、BMM のランタイム バージョンを復元できます。 このプロセスにより、ターゲット BMM にランタイム イメージが再デプロイされ、同じ識別子を持つクラスターに再び参加する手順が実行されます。 このアクションは、この BMM 上のテナント ワークロード ファイルには影響しません。 BMM アクセスを介してノードに対して書き込みまたは編集アクションが実行された場合、この "再イメージ化" アクションが Microsoft サポートを復元するために必要となり、変更内容は失われ、ノードは予期された状態に復元されます。
ベスト プラクティスとして、reimage
コマンドを実行する前に、evacuate "True"
を指定した cordon
コマンドを使用して BMM のワークロードがドレインされていることを確認します。
警告
複数の baremetalmachine replace
または reimage
コマンドを同時に実行するか、reimage
と同時に replace
を実行すると、サーバーは非稼働状態になります。 1 つの replace
/reimage
が完了していることを確認してから、別の置換/再イメージ化を開始してください。
az networkcloud baremetalmachine reimage \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
BMM を置き換える
完全または部分的なハードウェア交換が必要なハードウェアの問題がサーバーで発生した場合は、replace
コマンドを使用します。 マザーボードやネットワーク インターフェイス カード (NIC) の交換などのコンポーネントの交換後、BMM の MAC アドレスは変更されますが、iDRAC の IP アドレスとホスト名は変わりません。
警告
複数の baremetalmachine replace
または reimage
コマンドを同時に実行するか、reimage
と同時に replace
を実行すると、サーバーは非稼働状態になります。 1 つの replace
/reimage
が完了していることを確認してから、別の置換/再イメージ化を開始してください。
az networkcloud baremetalmachine replace \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
--bmc-mac-address <IDRAC_MAC> \
--boot-mac-address <PXE_MAC> \
--machine-name <OS_HOSTNAME> \
--serial-number <SERIAL_NUMBER> \
--subscription <subscriptionID>