進行常見的疑難排解程序
在本單元結束時,您應該能够描述常見作業狀態檢查的程序,以及可能遇到的一些常見問題。
什麼原因可能會導致提交給 Azure Cyclecloud 的工作處於擱置 (PD) 狀態?
處於 PD (擱置) 狀態的工作表示,雖然工作已提交,但 Cyclecloud 尚未找到任何可用的節點來執行工作。 這可能是由於多種原因造成的,例如資源不足、工作規格不正確或節點失敗。
設定工作指令碼時,必須確保要求的資源在叢集的限制範圍內。 這是因為配置的時間用完後,排程器就會終止工作,即使工作要求更多時間,或者如果工作要求的記憶體比系統上可用的記憶體多,則工作將永遠卡在佇列中。
我可以採取哪些步驟來確定是否已為我的 Azure Cyclecloud 工作要求節點?
您可以使用 Slurm squeue
命令來檢查作業狀態。
節點/排程器的 Slurm 記錄位置是什麼? (Slurm)
在 Azure CycleCloud 中,節點和排程器的 Slurm 記錄位置取決於 Slurm 叢集的設定。 記錄預設儲存在以下位置:
Slurm 控制器記錄通常儲存在控制器節點上的 /var/log/slurm/slurmctld.log
中。 確切路徑可能因您的設定而異。 您可以透過檢查 Slurm 設定檔中的 SlurmctldLogFile
參數來尋找記錄檔路徑 (通常為 /etc/slurm/slurm.conf
)。
Slurm 計算節點記錄通常儲存在每個計算節點上的 /var/log/slurm/slurmd.log
中。 確切路徑可能因您的設定而異。 您可以透過檢查 Slurm 設定檔中的 SlurmdLogFile
參數來尋找記錄檔路徑 (通常為 /etc/slurm/slurm.conf
)。
若要存取記錄檔,您可以透過 SSH 登入至控制器或計算節點,並瀏覽至適當的記錄檔路徑。 如果需要變更記錄檔路徑,您可以修改 Slurm 設定檔中的 SlurmctldLogFile
和 SlurmdLogFile
參數。
如何提交工作? (Slurm)
若要在使用 Slurm 作為工作排程器時向 Azure CycleCloud 提交工作,請執行以下步驟:
- 登入您的 Azure CycleCloud 執行個體。
- 識別要將作業提交至其中的叢集。 您可以在主儀表板上檢視叢集清單。
- 使用 SSH 連線至 Slurm 叢集的前端節點 (控制器)。
- 連線至前端節點後,建立 Slurm 工作指令碼。 工作指令碼是簡單的 shell 指令碼,其包含 Slurm 指示詞和要在工作中執行的命令。
- 使用
sbatch
命令提交工作。 - 使用 Slurm 命令 (例如
squeue
、sinfo
或sacct
) 監視作業的狀態。 - 工作完成後,可以在指定的輸出檔案中檢視輸出 (在本例中,
my_job_output.txt
)。