適用于能源中的 Azure HPC 網路拓撲和連線能力
本文中的指引可協助您檢查與 Microsoft Azure 的網路和連線能力相關的設計考慮和最佳做法,以及高效能運算 (HPC) 部署。 下列建議是以 Azure 登陸區域文章 中針對網路拓撲和連線 能力所定義的考慮和建議為基礎。
IP 定址、虛擬網路和子網
請務必規劃 Azure 中的 IP 位址,以確保:
- IP 位址空間不會在內部部署位置和 Azure 區域之間重迭。
- 未來虛擬網路 (VNet) 對等互連現有或已規劃的 VNet 是可行的。
- VNet 包含正確的位址空間。
- 預先規劃子網組態。
- 未來擴充或其他服務會考慮足夠的過度定址。
設計考量
請考慮建立個別的子網,以在環境的功能元件之間指派 IP 位址。 例如,專用 HPC VNet 可能包含下列子網:
- 計算
- 儲存體
- 基礎結構
- 視覺效果
- 登入
- Azure NetApp Files
- Azure HPC Cache
Azure NetApp Files、Azure HPC Cache 和未來的儲存體供應專案等服務需要專用的委派子網才能正常運作。 如果考慮其中任何一項服務,請確定已規劃適當的定址空間。
內部部署和 Azure 資源的 DNS 和名稱解析
網域名稱系統 (DNS) 是整體 Azure 登陸區域架構中的重要設計主題。 有些組織可能會想要使用其在 DNS 中的現有投資,而有些組織可能會將雲端採用視為將其內部 DNS 基礎結構現代化並使用原生 Azure 功能的機會。
DNS 設計考慮 :當虛擬機器的 DNS 或虛擬名稱在移轉期間未變更時,請遵循這些建議。
- 背景 DNS 和虛擬名稱會連接 HPC 環境中的許多系統介面,而客戶有時只會知道開發人員在一段時間內定義的介面。 當虛擬或 DNS 名稱在移轉後變更時,各種系統之間會發生連線挑戰,因此您應該保留 DNS 別名,以避免這些類型的困難。
- 使用不同的 DNS 區域來區分環境,例如沙箱、開發、生產前和生產環境。 例外狀況是使用自己的 VNet 進行 HPC 部署,這可能不需要私人 DNS 區域。
- 使用 HPC 快取時,需要 DNS 支援,以便存取儲存體和其他資源。
高效能網路服務
加速網路 :許多 HPC 工作負載,例如地震處理、處理儲存在共用檔案系統中的大量資料,例如 Azure Blob、Azure NetApp Files、Lustre ClusterStor,以及其他透過網路存取的自訂儲存體解決方案。 高效能網路對於減少資料傳輸的時間至關重要。
加速網路 提供 VM 與 Azure 服務之間的高輸送量、低延遲連線。 其他優點包括減少抖動和最少的 CPU 使用率。
InfiniBand :依賴訊息傳遞介面 (MPI) 程式庫的平行 HPC 應用程式可能需要在許多 VM 之間傳輸大量的資料。 支援 RDMA 的 H 系列 和 N 系列 VM 上提供的 InfiniBand 互連提供低延遲、高頻寬連線,以最大化 HPC 和深度學習應用程式的效能和延展性。
MPI 作業的一些範例包括分子動態、計算流體力學、石油和天然氣儲層模擬,以及新興的分散式機器學習工作負載。
InfiniBand 連線只能在配置於相同 放置群組 內的 VM 之間。
Azure ExpressRoute :針對水庫模擬和模型化的混合式設定等高載應用程式,其中內部部署資料集會共用,而 Azure 計算會變成延伸模組,ExpressRoute 會透過私人連線將內部部署環境連線到 Microsoft 雲端。 ExpressRoute 提供企業級的復原和可用性,以及全域 ExpressRoute 合作夥伴生態系統的優點。 如需如何使用 ExpressRoute 將網路連線到 Microsoft 的資訊,請參閱 ExpressRoute 連線模型 。
ExpressRoute 連線不會經過公用網際網路,而且比一般網際網路連線更可靠、更快、延遲更低。 針對點對站 VPN 和站對站 VPN,您可以使用這些 VPN 選項和 Azure ExpressRoute 的任何組合,將內部部署裝置或網路連線到虛擬網路。
定義 Azure 網路拓撲
企業級登陸區域支援兩個網路拓撲:一個以 Azure 虛擬 WAN 為基礎,另一個是以中樞和輪輻架構為基礎的傳統網路拓撲。 本節建議這兩個部署模型的 HPC 組態和作法。
Azure 虛擬 WAN :如果您的組織計畫: 根據虛擬 WAN 使用網路拓撲:
- 跨數個 Azure 區域部署資源,並將全域位置連線到 Azure 和內部部署。
- 完全整合軟體定義的 WAN 部署與 Azure。
- 跨連線到一個虛擬 WAN 中樞的所有 VNet 部署最多 2,000 個 VM 工作負載。
組織會使用 Azure 虛擬 WAN 來滿足大規模的互連需求。 Microsoft 會管理這項服務,有助於降低整體網路複雜性,並將組織網路現代化。
中樞和輪輻架構 :如果您的組織,請使用以中樞和輪輻架構 為基礎的 傳統 Azure 網路拓撲:
- 計畫只在選取 [Azure 區域] 中部署資源。
- 不需要全域互連的網路。
- 每個區域的遠端或分支位置很少,且需要少於 30 個 IP 安全性 (IPsec) 通道。
- 需要完整控制和細微性,才能手動設定您的 Azure 網路。
本機和全域 VNet 對等互連提供連線能力,是確保跨多個 Azure 區域進行 HPC 部署登陸區域之間連線的慣用方法。
輸入和輸出網際網路連線能力
由於 azure 原生網路安全性服務,例如 Azure 防火牆、azure 應用程式閘道 上的 Azure Web 應用程式防火牆,且 Azure Front Door 是完全受控的服務,因此您不會產生與基礎結構部署相關聯的作業和管理成本,而基礎結構部署可能會大規模變得複雜。
HPC 實作的設計建議:
- 對於全球使用量的客戶,Azure Front Door 會使用 Azure Web 應用程式防火牆 原則來協助 HPC 部署,以跨 Azure 區域傳遞及保護全域 HTTP/S 應用程式。
- 當您使用此服務並應用程式閘道來保護 HTTP/S 應用程式時,請利用 Azure Front Door 中的Web 應用程式防火牆原則。 鎖定應用程式閘道,只接收來自 Azure Front Door 的流量。
網路加密需求
HPC 實作的設計考慮:
- 當 Azure ExpressRoute 用來設定私人對等互連時,流量目前不會加密。
- 透過 ExpressRoute 進行 HPC 部署的流量不需要加密。 IPsec 通道預設會加密網際網路流量,加密或解密可能會對流量的效能造成負面影響。
在內部部署與 Azure 之間,以及跨 Azure 區域加密網路的主要建議:
- 判斷是否應加密 HPC 流量。 探索網路拓撲和連線能力,以瞭解企業級登陸區域中的網路加密選項。
- 規劃 Azure 中的 IP 位址,以確保:
- IP 位址空間不會在內部部署位置和 Azure 區域之間重迭。
- VNet 包含正確的位址空間。
- 預先規劃子網組態。
輸送量延遲頻寬網路需求
雲端中的 HPC 和混合式雲端部署模型都有自己的延遲和輸送量需求,取決於與雲端環境相比,在內部部署中提交和執行能源工作負載的方式。 使用者可以從內部部署或雲端,以許多部署模式提交 HPC 作業。
- 單一作業
- 如果使用遠端視覺效果桌面,內部部署至 Azure 連線考慮
- 高載作業
- 排程器設定在雲端中提交作業的網路考慮
- Azure Batch 網路考慮
- 內部部署和雲端中的平行工作流程
- 混合
- HPC 快取
- 雲端原生
- Azure Kubernetes Service 容器
- 函式
MPI 環境是專用的,因為它們具有獨特的需求,而且需要節點之間的低延遲通訊。 節點是透過高速互連連線,無法與其他工作負載共用。 MPI 應用程式會使用虛擬化環境中的傳遞模式,使用整個高效能互連。 MPI 節點儲存體通常是像 Lustre 這樣的平行檔案系統,也可以透過高速互連存取。
下一步
下列文章提供能源 HPC 環境雲端採用旅程中每個步驟的指引。