ベアメタルマシンのライフサイクルを管理する

[アーティクル]
12/20/2024

この記事では、ベアメタルマシン (BMM) でライフサイクル管理操作を実行する方法について説明します。これらの手順は、障害から復旧するためのトラブルシューティングや、メンテナンスアクションの実行時に使用する必要があります。 BMM のライフサイクルを管理するコマンドには以下のものがあります:

注意事項

Microsoft サポート担当者と最初に相談することなく、管理サーバーに対してアクションを実行しないでください。これを行うと、Operator Nexus Cluster の整合性に影響する可能性があります。

BMM の電源をオフにする
BMM を起動する
BMM を再起動する
BMM をスケジュール不可にする (退避のない切断)
BMM をスケジュール不可にする (退避のある切断)
BMM をスケジュール可能にする (uncordon)
BMM を再イメージ化する
BMM を置き換える

重要

Kubernetes コントロールプレーン (KCP) ノードに対する中断を伴うコマンド要求は、別の KCP ノードに対して既に実行されている別の中断を伴うアクションコマンドがある場合、または KCP 全体が使用できない場合は拒否されます。この確認が行われるのは、Nexus インスタンスの整合性を維持し、同時の中断を伴うアクションが原因で複数の KCP ノードが一度に動作不能にならないようにするためです。複数のノードが動作不能になると、Kubernetes コントロールプレーンの正常なクォーラムのしきい値を満たさなくなります。

上記の一覧の太字のアクションは、破壊的と見なされます (電源オフ、再起動、再イメージ化、置き換え)。退避のない切断は破壊的と見なされません。退避のある切断は破壊的と見なされます。

注意書きで説明したように、管理サーバー (特に KCP ノード) に対するアクションは、Microsoft サポート担当者と相談した上でのみ実行する必要があります。

前提条件

適切な CLI 拡張機能の最新バージョンをインストールします。
BMM のリソースグループの名前を取得します - クラスター管理対象リソースグループ名 (cluster_MRG)。
ライフサイクル管理操作を必要とするベアメタルマシンの名前を取得します。
ターゲットのベアメタルマシン poweredState が On に設定され、readyState が True に設定されていることを確認します。
1. この前提条件は start コマンドには適用されません。

BMM の電源をオフにする

このコマンドは、指定された bareMetalMachineName を power-off します。

az networkcloud baremetalmachine power-off \
  --name <BareMetalMachineName>  \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

BMM を起動する

このコマンドは、指定された bareMetalMachineName を start します。

az networkcloud baremetalmachine start \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

BMM を再起動する

このコマンドは、指定された bareMetalMachineName を restart します。

az networkcloud baremetalmachine restart \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

BMM をスケジュール不可にする (cordon)

ワークロードが BMM で現在実行されているかどうかを確認するには、次のコマンドを実行します。

Virtual Machines の場合:

az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Nexus Kubernetes クラスターノードの場合: (Nexus Kubernetes クラスターへのログインが必要)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

cordon コマンドを実行することで、BMM をスケジュール不可能にすることができます。 cordon コマンドの実行時、cordon が設定されている場合、Operator Nexus ワークロードは BMM でスケジュールされません。cordoned BMM にワークロードを作成しようとすると、ワークロードが pending 状態に設定されます。既存のワークロードは引き続き実行されます。 cordon コマンドは、既定値 False の evacuate パラメーターをサポートします。これを True に設定することをお勧めします。 evacuate パラメーターの値 True を指定して cordon コマンドを実行すると、BMM で実行されているワークロードが stopped で、BMM が pending 状態に設定されます。

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

evacuate "True" により、そのノードからワークロードが削除されますが、evacuate "False" は新しいワークロードのスケジュール設定を妨げるだけです。

BMM を "スケジュール可能" にする (切断を解除する)

uncordon コマンドを実行することで、BMM を "スケジュール可能" (使用可能) にすることができます。 BMM が uncordoned になると、BMM の pending 状態のすべてのワークロードが restarted になります。

az networkcloud baremetalmachine uncordon \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

BMM を再イメージ化する

reimage コマンドを実行して、BMM のランタイムバージョンを復元できます。このプロセスにより、ターゲット BMM にランタイムイメージが再デプロイされ、同じ識別子を持つクラスターに再び参加する手順が実行されます。このアクションは、この BMM 上のテナントワークロードファイルには影響しません。 BMM アクセスを介してノードに対して書き込みまたは編集アクションが実行された場合、この "再イメージ化" アクションが Microsoft サポートを復元するために必要となり、変更内容は失われ、ノードは予期された状態に復元されます。ベストプラクティスとして、reimage コマンドを実行する前に、evacuate "True" を指定した cordon コマンドを使用して BMM のワークロードがドレインされていることを確認します。

警告

複数の baremetalmachine replace または reimage コマンドを同時に実行するか、reimage と同時に replace を実行すると、サーバーは非稼働状態になります。 1 つの replace/reimage が完了していることを確認してから、別の置換/再イメージ化を開始してください。

az networkcloud baremetalmachine reimage \
  --name <BareMetalMachineName>  \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

BMM を置き換える

完全または部分的なハードウェア交換が必要なハードウェアの問題がサーバーで発生した場合は、replace コマンドを使用します。マザーボードやネットワークインターフェイスカード (NIC) の交換などのコンポーネントの交換後、BMM の MAC アドレスは変更されますが、iDRAC の IP アドレスとホスト名は変わりません。

警告

az networkcloud baremetalmachine replace \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUMBER> \
  --subscription <subscriptionID>

次の方法で共有

ベアメタルマシンのライフサイクルを管理する

前提条件

BMM の電源をオフにする

BMM を起動する

BMM を再起動する

BMM をスケジュール不可にする (cordon)

BMM を "スケジュール可能" にする (切断を解除する)

BMM を再イメージ化する

BMM を置き換える

フィードバック

その他のリソース

次の方法で共有

ベア メタル マシンのライフサイクルを管理する

前提条件

BMM の電源をオフにする

BMM を起動する

BMM を再起動する

BMM をスケジュール不可にする (cordon)

BMM を "スケジュール可能" にする (切断を解除する)

BMM を再イメージ化する

BMM を置き換える

フィードバック

その他のリソース

ベアメタルマシンのライフサイクルを管理する