共用方式為


在 Azure 虛擬機中計算大規模的 HPC 應用程式工作負載

高效能運算 (HPC) 工作負載也稱為大型計算應用程式,是需要許多核心的大型工作負載。 HPC 可在產品開發程式的每個階段,協助能源、金融和製造等產業。

大型計算應用程式通常具有下列特性:

  • 您可以將工作負載分割成可同時跨許多核心執行的離散工作。
  • 每個工作都會接受輸入、處理併產生輸出。 整個應用程式執行的時間有限。
  • 應用程式不需要持續執行,但必須能夠處理節點失敗和當機。
  • 工作可以獨立或緊密結合,這需要高速網路技術,例如 InfiniBand 和遠端直接記憶體存取 (RDMA) 連線。
  • 您可以使用計算密集型虛擬機器(VM)大小,例如 H16r、H16mr 和 A9。 您的選擇取決於工作負載。

圖表,顯示作業佇列如何從用戶端移至排程器,以及平行且緊密結合的 Azure 工作。

Azure 提供一系列已針對 CPU 密集和 GPU 密集型工作負載優化的 VM 實例。 這些 VM 可以在 Azure 虛擬機擴展集中執行,以提供高可用性及負載平衡。 Azure 也是唯一提供已啟用 InfiniBand 硬體的雲端平臺。 InfiniBand 可為財務風險模型化、工程壓力分析,以及執行水庫模擬和地震工作負載等工作提供顯著的效能優勢。 這項優勢在效能上接近或超過目前的內部部署基礎設施。

Azure 為 HPC 和 GPU 優化運算提供各種 VM 大小。 請務必選取適合您工作負載的 VM 大小。 若要找出最適合的大小,請參閱 Azure 中的虛擬機器 大小,以及 虛擬機選取器工具

請記住,並非所有的 Azure 產品都可在所有區域中使用。 若要查看您所在區域的可用產品,請參閱依區域提供的 產品

如需 Azure 計算選項的詳細資訊,請參閱 Azure 計算部落格選擇 Azure 計算服務

Azure 同時提供 CPU 型和已啟用 GPU 的 VM。 N 系列 VM 具有 NVIDIA GPU,專為計算密集型或圖形密集型應用程式所設計,例如 AI、學習和視覺效果。

HPC 產品是專為高效能案例所設計。 但E和 F 系列等其他產品也適用於特定工作負載。

設計考慮

當您設計 HPC 基礎結構時,有數個工具和服務可協助您管理和排程工作負載。

  • Azure Batch 是執行大規模 HPC 應用程式的受控服務。 使用 Batch 來設定 VM 集區,並上傳應用程式和數據檔。 然後 Batch 服務會設定 VM、將工作指派給 VM、執行工作,以及監視進度。 Batch 可以自動調整虛擬機器的數量,以應對工作負載的變動。 Batch 也提供作業排程功能。

  • Azure CycleCloud 是一種工具,可用來在 Azure 中建立、管理、操作和優化 HPC 和大型計算叢集。 使用 Azure CycleCloud 動態設定 HPC Azure 叢集,並協調混合式和雲端工作流程的數據和作業。 Azure CycleCloud 提供使用工作負載管理員來管理 HPC 工作負載的最簡單方式。 Azure CycleCloud 支援工作負載管理員,例如 Grid Engine、Microsoft HPC Pack、HTCondor、LSF、PBS Pro、SLURM 和 Symphony。

  • Azure Logic Apps 是一項特製化服務,可用來排程在受控 VM 集區上執行的計算密集型工作。 您可以自動調整計算資源以符合作業的需求。

下列各節說明能源、金融和製造業的參考架構。

能源參考架構

當您設計能源工作負載的架構時,請考慮下列建議和使用案例。

設計建議

  • 了解水庫和地震工作流程通常具有計算和作業排程的類似需求。

  • 請考慮您的網路需求。 Azure HPC 提供 HBv2 和 HBv3 系列 VM 大小,以用於記憶體密集的地震成像和水庫模擬。

  • 對於需要記憶體頻寬的應用程式,使用 HB 系列 VM;對於計算密集型的水庫模擬,使用 HC 系列 VM。

  • 針對 3D 水庫模型化和可視化地震數據使用 NV 系列 VM。

  • 使用 NCv4 系列 VM 進行 GPU 加速地震全超聲波反轉 (FWI) 分析。

    對於數據密集型塑膠傳輸成形(RTM)處理,NDv4 VM 大小是最佳選項,因為它提供具有累積容量 7 TB 的非揮發性記憶體快取 (NVMe) 磁碟驅動器。

    若要在具有 MPI 工作負載的 HB 系列 VM 上取得最佳效能,請進行最佳化釘選處理程序至處理器核心。 如需詳細資訊,請參閱 Azure HB 系列 VM 的最佳 MPI 程式放置

    NCv4 系列 VM 也提供專用工具,以確保正確綁定平行應用程式程序。

  • 由於 NDv4 系列 VM 的複雜架構,因此當您設定 VM 以確保以最佳方式啟動 GPU 加速應用程式時,請注意。 如需詳細資訊,請參閱 Azure 可調整的 GPU VM

石油和天然氣地震和儲層模擬參考架構的使用案例

水庫和地震工作流程通常具有計算和作業排程的類似需求。 不過,地震工作負載會挑戰基礎結構的儲存功能。 有時它們需要多個 PB 的儲存空間與吞吐量需求,這些需求可能以數百 GB 來計量。 例如,單一地震處理專案可能從 500 TB 的原始數據開始,這可能需要數個 PB 的長期儲存。

請參閱下列參考架構,可協助您順利達成在 Azure 中執行應用程式的目標。

地震處理的參考架構

地震處理和成像是石油和天然氣行業的基礎,因為它們會根據勘探數據建立子表面的模型。 地質學家通常會進行評估和量化地下可能存在事物的過程。 地理科學家通常會使用數據中心和雲端系結軟體。 他們偶爾會使用虛擬桌面技術從遠端或雲端存取軟體。

地下模型的品質以及數據的質量和解析度對於做出關於投標租約或決定鑽探地點的正確商務決策至關重要。 地震圖像解譯圖像可以改善井的位置,降低鑽 干洞的風險。 對於石油和天然氣公司來說,對地下結構有更好的瞭解,直接轉化為降低勘探風險。 基本上,公司對地質區域的看法的精確度越高,在鑽探時,其擊中石油的機會就越好。

此作業需要大量數據和計算。 公司需要處理數太位元組的資料。 此數據處理需要大量且快速的計算能力,其中包括快速的網路功能。 由於地震成像的數據和運算密集性質,公司會使用平行運算來處理數據,並減少編譯和完成的時間。

公司持續不斷地處理大量的地震勘探數據,以確定和準確地量化及界定地層中的碳氫化合物含量,這是在開始提取作業之前,在地下發現的。 擷取數據是非結構化的,對於一個潛在的油氣田,其儲存空間可以輕鬆達到 PB 級。 由於這些因素,您只能使用 HPC 和其他適當的數據管理策略,在合理的時間範圍內完成地震處理活動。

網路互連計算和記憶體的圖表,以進行地震解譯和模型化。

地震處理的網路參考架構圖表。

水庫模擬和模型化的參考架構

水庫模型化中的物理地下特性,如水飽和度、孔隙度和滲透性,也是水庫模型化的寶貴數據。 此數據對於判斷要部署的復原方法和設備,以及最終要放置井的位置非常重要。

水庫模型化工作負載也是水庫工程的領域。 工作負載結合了水庫模型中的物理、數學和計算機程序設計,以在一段時間內分析及預測水庫中的液體行為。 此分析需要高計算能力和大型計算工作負載需求,包括快速網路功能。

用於水庫仿真的網路參考架構圖表。

網路互連計算和記憶體地震分析的圖表。

財務參考架構

下列架構是如何使用 HPC 中的 VM 進行財務工作負載的範例。

架構圖表,顯示使用 HPC Pack HB 系列 VM 的財務 HPC 工作負載。

此工作負載會使用 HPC Pack HB 系列計算節點。

HB 系列 VM 已針對 HPC 應用程式進行優化,例如財務分析、天氣模擬和矽緩存器傳輸層級 (RTL) 模型。 HB VM 功能:

  • 最多 120 個 AMD EPYC™ 7003 系列 CPU 核心。
  • 448 GB 的 RAM。
  • 沒有超線程。

HB 系列 VM 也提供:

  • 每秒 350 GB 的記憶體頻寬。
  • 每個核心最多 32 MB 的 L3 快取。
  • 每秒最多 7 GB 的區塊裝置固態硬碟 (SSD) 效能。
  • 時鐘頻率高達 3.675 GHz。

針對 HPC 前端節點,工作負載會使用不同大小的虛擬機。 具體而言,它會使用D16s_v4 VM,這是一種一般用途的產品。

製造參考架構

下列架構是如何在製造中使用 HPC 中的 VM 的範例。

架構圖,顯示使用 Azure CycleCloud 和 HC 系列 VM 的製造 HPC 工作負載。

此架構會使用連線至 Azure Private Link 子網的 Azure 檔案共用和 Azure 儲存體帳戶。

此架構會在自己的子網中使用 Azure CycleCloud。 HC 系列 VM 用於叢集節點的排列中。

HC 系列 VM 已針對使用密集計算的 HPC 應用程式進行優化。 範例包括隱含和有限元素分析、水庫模擬和計算化學應用程式。 HC VM 具有 44 個 Intel Xeon Platinum 8168 處理器核心、每個 CPU 核心 8 GB 的 RAM、無超線程,以及最多四個受控磁碟。 Intel Xeon Platinum 平臺支援 Intel 豐富的軟體工具和功能生態系統,以及大部分工作負載的全核心時鐘速度 3.4 GHz。

後續步驟

如需本文中支援使用案例之應用程式的詳細資訊,請參閱下列資源:

下列文章提供雲端採用過程各個階段的指引。 這些資源可協助您成功採用雲端的製造 HPC 環境。