Azure 高效能運算 (HPC) 登陸區域加速器
高效能運算 (HPC) 登陸區域加速器會自動部署環境。 此環境提供基底架構,您可以自定義以在 Azure 中建立完整 HPC 叢集解決方案的端對端部署機制。 加速器是開放原始碼腳本和範本的集合,可準備企業級登陸區域。 它可以提供特定的架構方法和參考實作,以遵守 雲端採用架構的架構和最佳做法。
客戶以各種方式採用 HPC 以符合其業務需求,而且您可以調整 HPC 登陸區域加速器,以產生符合 您 方式的架構。 使用加速器有助於讓您的組織走上可持續規模的道路。
實作企業級登陸區域
HPC 登陸區域加速器假設您從已成功實作的企業級登陸區域開始。 如需此必要條件的詳細資訊,請參閱下列文章:
HPC 登陸區域加速器提供的內容
HPC 登陸區域加速器登陸區域的方法會為您的專案提供下列資產:
- 模組化方法,讓您可以自定義環境變數
- 協助評估重要決策的設計指導方針
- 登陸區域架構
- 包含:
- 可部署的參考,能夠為您的 HPC 部署建立環境
- Microsoft 核准的 HPC 參考實作,以測試已部署的環境
能源、製造和金融的設計指導方針
除了依組織而異之外,登陸區域的架構也會因商務部門而異。 本節列出依扇區的文章,提供建立登陸區域的指導方針:
能源(石油和天然氣)
製造業
Finance
為 AI 工作負載選擇 HPC 計算的設計指導方針
為 AI 工作負載選擇正確的 GPU 優化計算 SKU 對於優化效能及控制成本而言很重要。 Microsoft 提供許多不同的 SKU,針對受益於更多 GPU 能力的工作負載進行優化。 為 AI 工作負載選擇正確的 SKU 時,有幾個考慮。 較小的工作負載只能利用一小部分的CPU、GPU和更強大的SKU頻寬,例如 NDv4。 您可能想要考慮其他計算 SKU,例如 NCv4 和 NDv2,以用於較小的作業。 以下是針對 AI 工作負載選擇正確 GPU 優化計算 SKU 時的一些考慮:
- 檢查點。 請考慮執行機器學習模型時檢查點間隔等因素。 這可能會影響定型階段的 GPU 效能。 在記憶體效率與維護順暢 GPU 作業之間取得平衡。 監視 GPU 使用量。
- 推斷。 推斷需求與定型需求不同,且可能較高的CPU負載可能會超過CPU效能。 選取計算 SKU 時,請考慮模型的推斷需求。 監視您的CPU使用量。
- 訓練。 請考慮在定型期間模型的需求,同時監視 CPU 和 GPU 使用量。
- 作業大小調整。 考慮 AI 工作負載的計算 SKU 時,請考慮作業的大小。 較小的作業,例如大約 OPT 1.3B 的作業可能無法利用較大的 SKU 大小,而且可能會根據作業階段(推斷、定型)而讓 CPU 和 GPU 電源閒置。
- 帶寬。 較大型、較低的延遲頻寬在未使用時可能會是費用。 僅針對需要額外頻寬的最大模型,請考慮 InfiniBand。
檢視 Azure 的 GPU 優化虛擬機大小。
範例:能源的概念參考架構
下列概念參考架構是示範能源環境設計領域和最佳做法的範例。
範例:財務的概念參考架構
下列概念參考架構是示範財務環境設計領域和最佳做法的範例。
範例:製造的概念參考架構
下列概念參考架構是示範製造環境的設計區域和最佳做法的範例。
取得 HPC 登陸區域加速器
HPC 登陸區域加速器可在 GitHub 上取得: Azure HPC OnDemand Platform Accelerator
下一步
如需 HPC 登陸區域加速器架構的考慮和建議,請檢閱 Azure 身分識別和存取管理中 HPC 登陸區域加速器的重要設計區域。