次の方法で共有


ベア メタル マシンのライフサイクルを管理する

この記事では、ベア メタル マシン (BMM) でライフサイクル管理操作を実行する方法について説明します。 これらの手順は、障害から復旧するためのトラブルシューティングや、メンテナンスアクションの実行時に使用する必要があります。 BMM のライフサイクルを管理するコマンドには以下のものがあります:

注意事項

Microsoft サポート担当者と最初に相談することなく、管理サーバーに対してアクションを実行しないでください。 これを行うと、Operator Nexus Cluster の整合性に影響する可能性があります。

  • BMM の電源をオフにする
  • BMM を起動する
  • BMM を再起動する
  • BMM をスケジュール不可にする (退避のない切断)
  • BMM をスケジュール不可にする (退避のある切断)
  • BMM をスケジュール可能にする (uncordon)
  • BMM を再イメージ化する
  • BMM を置き換える

重要

Kubernetes コントロール プレーン (KCP) ノードに対する中断を伴うコマンド要求は、別の KCP ノードに対して既に実行されている別の中断を伴うアクション コマンドがある場合、または KCP 全体が使用できない場合は拒否されます。 この確認が行われるのは、Nexus インスタンスの整合性を維持し、同時の中断を伴うアクションが原因で複数の KCP ノードが一度に動作不能にならないようにするためです。 複数のノードが動作不能になると、Kubernetes コントロール プレーンの正常なクォーラムのしきい値を満たさなくなります。

上記の一覧の太字のアクションは、破壊的と見なされます (電源オフ、再起動、再イメージ化、置き換え)。 退避のない切断は破壊的と見なされません。 退避のある切断は破壊的と見なされます。

注意書きで説明したように、管理サーバー (特に KCP ノード) に対するアクションは、Microsoft サポート担当者と相談した上でのみ実行する必要があります。

前提条件

  1. 適切な CLI 拡張機能の最新バージョンをインストールします。
  2. BMM のリソース グループの名前を取得します - クラスター管理対象リソース グループ名 (cluster_MRG)。
  3. ライフサイクル管理操作を必要とするベア メタル マシンの名前を取得します。
  4. ターゲットのベア メタル マシン poweredStateOn に設定され、readyStateTrue に設定されていることを確認します。
    1. この前提条件は start コマンドには適用されません。

BMM の電源をオフにする

このコマンドは、指定された bareMetalMachineNamepower-off します。

az networkcloud baremetalmachine power-off \
  --name <BareMetalMachineName>  \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

BMM を起動する

このコマンドは、指定された bareMetalMachineNamestart します。

az networkcloud baremetalmachine start \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

BMM を再起動する

このコマンドは、指定された bareMetalMachineNamerestart します。

az networkcloud baremetalmachine restart \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

BMM をスケジュール不可にする (cordon)

ワークロードが BMM で現在実行されているかどうかを確認するには、次のコマンドを実行します。

Virtual Machines の場合:

az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Nexus Kubernetes クラスター ノードの場合: (Nexus Kubernetes クラスターへのログインが必要)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

cordon コマンドを実行することで、BMM をスケジュール不可能にすることができます。 cordon コマンドの実行時、cordon が設定されている場合、Operator Nexus ワークロードは BMM でスケジュールされません。cordoned BMM にワークロードを作成しようとすると、ワークロードが pending 状態に設定されます。 既存のワークロードは引き続き実行されます。 cordon コマンドは、既定値 Falseevacuate パラメーターをサポートします。 これを True に設定することをお勧めします。 evacuate パラメーターの値 True を指定して cordon コマンドを実行すると、BMM で実行されているワークロードが stopped で、BMM が pending 状態に設定されます。

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

evacuate "True" により、そのノードからワークロードが削除されますが、evacuate "False" は新しいワークロードのスケジュール設定を妨げるだけです。

BMM を "スケジュール可能" にする (切断を解除する)

uncordon コマンドを実行することで、BMM を "スケジュール可能" (使用可能) にすることができます。 BMM が uncordoned になると、BMM の pending 状態のすべてのワークロードが restarted になります。

az networkcloud baremetalmachine uncordon \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

BMM を再イメージ化する

reimage コマンドを実行して、BMM のランタイム バージョンを復元できます。 このプロセスにより、ターゲット BMM にランタイム イメージが再デプロイされ、同じ識別子を持つクラスターに再び参加する手順が実行されます。 このアクションは、この BMM 上のテナント ワークロード ファイルには影響しません。 BMM アクセスを介してノードに対して書き込みまたは編集アクションが実行された場合、この "再イメージ化" アクションが Microsoft サポートを復元するために必要となり、変更内容は失われ、ノードは予期された状態に復元されます。 ベスト プラクティスとして、reimage コマンドを実行する前に、evacuate "True" を指定した cordon コマンドを使用して BMM のワークロードがドレインされていることを確認します。

警告

複数の baremetalmachine replace または reimage コマンドを同時に実行するか、reimage と同時に replace を実行すると、サーバーは非稼働状態になります。 1 つの replace/reimage が完了していることを確認してから、別の置換/再イメージ化を開始してください。

az networkcloud baremetalmachine reimage \
  --name <BareMetalMachineName>  \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

BMM を置き換える

完全または部分的なハードウェア交換が必要なハードウェアの問題がサーバーで発生した場合は、replace コマンドを使用します。 マザーボードやネットワーク インターフェイス カード (NIC) の交換などのコンポーネントの交換後、BMM の MAC アドレスは変更されますが、iDRAC の IP アドレスとホスト名は変わりません。

警告

複数の baremetalmachine replace または reimage コマンドを同時に実行するか、reimage と同時に replace を実行すると、サーバーは非稼働状態になります。 1 つの replace/reimage が完了していることを確認してから、別の置換/再イメージ化を開始してください。

az networkcloud baremetalmachine replace \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUMBER> \
  --subscription <subscriptionID>