進行常見的疑難排解程序

已完成

在本單元結束時,您應該能够描述常見作業狀態檢查的程序,以及可能遇到的一些常見問題。

什麼原因可能會導致提交給 Azure Cyclecloud 的工作處於擱置 (PD) 狀態?

處於 PD (擱置) 狀態的工作表示,雖然工作已提交,但 Cyclecloud 尚未找到任何可用的節點來執行工作。 這可能是由於多種原因造成的,例如資源不足、工作規格不正確或節點失敗。

設定工作指令碼時,必須確保要求的資源在叢集的限制範圍內。 這是因為配置的時間用完後,排程器就會終止工作,即使工作要求更多時間,或者如果工作要求的記憶體比系統上可用的記憶體多,則工作將永遠卡在佇列中。

我可以採取哪些步驟來確定是否已為我的 Azure Cyclecloud 工作要求節點?

您可以使用 Slurm squeue 命令來檢查作業狀態。

節點/排程器的 Slurm 記錄位置是什麼? (Slurm)

在 Azure CycleCloud 中,節點和排程器的 Slurm 記錄位置取決於 Slurm 叢集的設定。 記錄預設儲存在以下位置:

Slurm 控制器記錄通常儲存在控制器節點上的 /var/log/slurm/slurmctld.log 中。 確切路徑可能因您的設定而異。 您可以透過檢查 Slurm 設定檔中的 SlurmctldLogFile 參數來尋找記錄檔路徑 (通常為 /etc/slurm/slurm.conf)。

Slurm 計算節點記錄通常儲存在每個計算節點上的 /var/log/slurm/slurmd.log 中。 確切路徑可能因您的設定而異。 您可以透過檢查 Slurm 設定檔中的 SlurmdLogFile 參數來尋找記錄檔路徑 (通常為 /etc/slurm/slurm.conf)。

若要存取記錄檔,您可以透過 SSH 登入至控制器或計算節點,並瀏覽至適當的記錄檔路徑。 如果需要變更記錄檔路徑,您可以修改 Slurm 設定檔中的 SlurmctldLogFileSlurmdLogFile 參數。

如何提交工作? (Slurm)

若要在使用 Slurm 作為工作排程器時向 Azure CycleCloud 提交工作,請執行以下步驟:

  1. 登入您的 Azure CycleCloud 執行個體。
  2. 識別要將作業提交至其中的叢集。 您可以在主儀表板上檢視叢集清單。
  3. 使用 SSH 連線至 Slurm 叢集的前端節點 (控制器)。
  4. 連線至前端節點後,建立 Slurm 工作指令碼。 工作指令碼是簡單的 shell 指令碼,其包含 Slurm 指示詞和要在工作中執行的命令。
  5. 使用 sbatch 命令提交工作。
  6. 使用 Slurm 命令 (例如 squeuesinfosacct) 監視作業的狀態。
  7. 工作完成後,可以在指定的輸出檔案中檢視輸出 (在本例中,my_job_output.txt)。