共用方式為


運算 Azure VM 中的大規模 HPC 應用程式工作負載

巨量計算一詞(用於參考 HPC)描述需要大量核心的大型工作負載,通常以數百或數千個為單位。 案例包括影像轉譯、流暢動態、財務風險模型、石油勘探、藥物設計和工程壓力分析等。

以下是大型計算應用程式的一般特性:

  • 工作可以分割成離散工作,這些工作可以同時跨許多核心執行。
  • 每個工作都是有限的。 它需要一些輸入、執行一些處理,並產生輸出。 整個應用程式會執行一段有限的時間(分鐘到數天)。 常見的模式是在高載中設定許多核心,然後在應用程式完成之後向下旋轉為零。
  • 應用程式不需要保持 24/7。 但系統必須處理節點失敗或應用程式當機。
  • 對於某些應用程式,工作是獨立的,而且可以平行執行。 在其他情況下,工作會緊密結合,這表示它們必須互動或交換中繼結果。 在此情況下,請考慮使用高速網路技術,例如 InfiniBand 和遠端直接記憶體存取(RDMA)。
  • 根據您的工作負載,您可以使用計算密集型 VM 大小(H16r、H16mr 和 A9)。

Azure 工作的圖表。

Azure 提供一系列針對 CPU 和 GPU 密集工作負載優化的 VM 實例(計算和視覺效果)。 VM 很適合用來執行石油和天然氣工作負載。

Azure 是唯一提供已啟用 InfiniBand 硬體之 VM 實例的雲端平臺。 這項功能為執行水庫模擬和地震工作負載提供了顯著的效能優勢。 改善的效能可縮小效能差距,併產生比目前內部部署基礎結構更接近或更好的效能。

Azure VM 有許多不同的選項,稱為 VM 大小。 HPC 和 GPU 優化運算有不同的 VM 大小系列。 針對您想要使用的工作負載選取適當的 VM 大小。 如需選取 VM 大小的詳細資訊,請參閱 Azure 選取器工具中的 VM 大小。

並非所有 Azure 區域都提供所有 Azure 產品。 如需詳細資訊,請參閱目前區域可用的產品清單。

如需 Azure 計算中選項的最佳做法,請參閱 Azure 計算部落格 ,或查看 Azure 計算服務 內容以選擇服務。

CPU 型虛擬機器

已啟用 GPU 的虛擬機器

N 系列 VM 具有 NVIDIA GPU,專為計算密集型或圖形密集型應用程式而設計,包括人工智慧(AI)、學習和視覺效果。

HPC SKU 專為高效能案例所建置。 但 Azure 也提供其他 SKU,可能適合您在 HPC 基礎結構上執行的特定工作負載。 您可以在成本較低的硬體上有效地執行這些 SKU。 一些常用的計算 SKU 是 E 和 F 系列。

HPC 設計考慮

作業排程器 是一項特製化服務,可用來排程計算密集型工作,以在虛擬機的受控集區上執行。 您可以自動調整計算資源,以符合作業的需求。

Azure Batch 是一項受控服務,可用於執行大規模的 HPC 應用程式。 使用 Azure Batch 時,您會設定 VM 集區,然後上傳應用程式和資料檔。 然後 Batch 服務會設定 VM、將工作指派給 VM、執行工作,以及監視進度。 Batch 可以自動相應增加和減少 VM,以響應變更的工作負載。 Batch 也提供作業排程功能。

Azure CycleCloud 是一種工具,可用來在 Azure 中建立、管理、操作和優化 HPC 和 Big Compute 叢集。 透過 Azure CycleCloud,使用者可以動態設定 HPC Azure 叢集,並協調混合式和雲端工作流程的數據和作業。 Azure CycleCloud 提供最簡單的方式來管理 HPC 工作負載,方法是使用 Azure 上的各種工作負載管理員(例如 Grid Engine、HPC Pack、HTCondor、LSF、PBS Pro、Slurm 或 Symphony)。

HPC 設計建議

  • 水庫和地震工作流程通常都有計算和作業排程的類似需求。
  • 當您考慮網路需求時,Azure HPC 提供 HBv2 和 HBv3 VM 大小,以進行記憶體密集的地震成像和水庫模擬。
  • 針對記憶體頻寬系結應用程式和 HC VM 使用 HB VM 進行計算系結水庫模擬。
  • 使用 NV VM,建立 3D 儲油層模型並將震測資料虛擬化。
  • 針對 GPU 加速地震 FWI 分析,NCv4 是建議的解決方案。 針對更密集的數據 RTM 處理,NDv4 SKU 是最佳選項,因為 NVMe 磁碟驅動器的累積容量為 7 TB。 若要在具有 MPI 工作負載的 HB 系列 VM 上獲得最佳效能,請執行最佳進程釘選到處理器的核心。 如需詳細資訊,請參閱 Azure HB 系列 VM 的最佳 MPI 程式放置部落格文章。 也提供專用工具,以確保正確釘選平行應用程式程式,如這裡所述。
  • 由於 NDv4 系列 VM 的複雜架構,請務必在設定 VM 時特別注意,以確保以最佳方式啟動 GPU 加速應用程式。 如需 Azure 高效能運算的詳細資訊,請參閱 Azure 可調整的 GPU VM 部落格文章。

HPC 參考架構

以下是能源 HPC 環境的使用案例和參考架構。

石油和天然氣地震和水庫模擬參考架構使用案例

通常,水庫和地震工作流程都有類似的計算和作業排程需求。 不過,地震工作負載會挑戰記憶體上的基礎結構,並具有可能以數百 GB 為單位的多重 PB 記憶體和輸送量需求。 例如,單一地震處理專案可能從 500 TB 的原始數據開始,這可能需要數 PB 的長期記憶體。 以下是目前提供的一些參考架構,可協助您順利達成在 Azure 中執行應用程式的目標。

地震處理的使用案例和參考架構

地震處理和成像是石油和天然氣業務的基礎,因為它們會在勘探數據中建立子表面的模型。 限定和量化地下可能的內容的過程通常是由地球科學家進行。 地理科學家會使用通常為數據中心和雲端系結的軟體。 他們偶爾會從遠端或雲端使用虛擬桌面技術來存取軟體。

地下模型的品質以及數據的品質和解析度對於做出正確的業務決策,對於對租賃的競價或決定鑽研的位置至關重要。 地震圖像解譯圖像可以改善井的位置,降低鑽探「干洞」的風險。 對於石油和天然氣公司來說,對地下結構有更好的瞭解,直接轉化為降低勘探風險。 基本上,公司對地質區域的看法的精確度越高,在鑽探時,其擊中石油的機會就越好。

此作業需要大量數據和計算。 公司需要處理數 TB 的數據,需要大量且快速的計算能力,其中包括快速的網路功能。 由於地震成像的數據和運算密集性質,公司會使用平行運算來處理數據,並減少編譯和完成的時間。 公司無情地處理大量地震收購數據,以找出、準確量化,並限定在恢復作業開始前在地下發現的水庫碳氫化合物含量。 由於擷取數據是非結構化的,而且可以輕鬆地達到一個潛在油氣田的 PB 層級,地震處理活動只能使用 HPC 和適當的數據管理策略,在有意義的時幅內完成。

網路互連計算和記憶體的圖表 - 地震解譯和模型化。

網路參考架構的圖表 - 地震處理。

水庫模擬和模型化的使用案例和參考架構

水庫模型化也會將值放在物理地下特性上,例如水飽和度、孔隙度和滲透性。 此數據對於判斷要部署的復原方法和設備,以及最終要放置井的位置非常重要。

水庫模型化工作負載也是水庫工程的領域。 工作負載結合了水庫模型中的物理、數學和計算機程序設計,以在一段時間內分析及預測水庫中的液體行為。 此分析需要高計算能力,而且通常需要大量的計算工作負載需求,包括快速網路功能。

網路參考架構的圖表 - 水庫模擬。

網路互連計算和記憶體地震分析的圖表。

如需支援 HPC 供能源使用案例之相關 HPC ISV 應用程式參考架構或手冊的詳細資訊,請參閱:

下一步

下列文章提供能源 HPC 環境雲端採用旅程中每個步驟的指引。