客戶啟用災害復原
重要
本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本沒有服務等級協定,不建議將其用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
若要將運行時間最大化,請事先規劃以維護商務持續性,並準備使用 Azure AI Foundry 進行災害復原。 由於 Azure AI Foundry 建置在 Azure 機器學習 架構上,因此參考基礎架構很有説明。
Microsoft 致力於確保 Azure 服務皆能持續可用。 不過仍然可能會發生計畫外的服務中斷。 建議您備妥災害復原計畫,以處理區域服務中斷問題。 在本文中,您將學會如何:
- 規劃 Azure AI Foundry 的多區域部署和相關資源。
- 盡可能提升記錄、筆記本、Docker 映像和其他中繼資料的復原機率。
- 設計解決方案的高可用性。
- 啟動容錯移轉至另一個區域。
重要
Azure AI Foundry 本身不提供自動故障轉移或災害復原。
瞭解適用於 Azure AI Foundry 的 Azure 服務
Azure AI Foundry 相依於多個 Azure 服務。 其中部分服務佈建在您的訂閱中, 您必須負責這些服務的高可用性設定。 Microsoft 會管理一些在 Microsoft 訂用帳戶中建立的服務。
Azure 服務包括:
Azure AI Foundry 基礎結構:適用於 Azure AI Foundry 中樞和專案的Microsoft管理環境。 Azure 機器學習 提供 [基礎架構](Azure AI Foundry 架構檔)。
必要的相關聯資源:在 Azure AI Foundry 中樞和專案建立期間,在您的訂用帳戶中布建的資源。 這些資源包括 Azure 儲存體和 Azure Key Vault。
- 預設儲存體具有資料,例如模型、訓練記錄資料和資料資產的參考。
- Key Vault 具有用於 Azure 儲存體和連線的認證。
選擇性的相關聯資源:您可以附加至 Azure AI Foundry 中樞的資源。 這些資源包括 Azure Container Registry 和 Application Insights。
- Container Registry 具有用於定型和推斷環境的 Docker 映像。
- Application Insights 是用來監視 Azure AI Foundry。
計算執行個體:您在部署中樞後建立的資源。 Microsoft 管理的模型開發環境。
連線:Azure AI Foundry 可以連線到各種其他服務。 您必須負責設定其高可用性設定。
下表顯示由 Microsoft 管理及由您管理的 Azure 服務。 其也會指出預設為高可用性的服務。
服務 | 管理者 | 預設為高可用性 |
---|---|---|
Azure AI Foundry 基礎結構 | Microsoft | |
相關聯的資源 | ||
Azure 儲存體 | 您 | |
Key Vault | 您 | ✓ |
Container Registry | 您 | |
Application Insights | 您 | NA |
計算資源 | ||
計算執行個體 | Microsoft | |
與外部服務之間的任何連線,例如 Azure AI 服務 | 您 |
本文的其餘部分,將說明讓這些每一項服務都具有高度可用性所需採取的動作。
規劃多重區域部署
多區域部署仰賴在兩個 Azure 區域中建立 Azure AI Foundry 和其他資源(基礎結構)。 若發生區域性中斷,您可以切換到另一個區域。 規劃部署資源的位置時,請考慮:
區域可用性:可能的話,請使用相同地理區域中的區域,無須一定是最接近的區域。 若要檢查 Azure AI Foundry 的區域可用性,請參閱依區域分類的 Azure 產品。
Azure 配對區域:已配對區域會協同進行平台更新,並優先處理需要進行的復原工作。 不過,並非所有區域都支援配對的區域。 如需詳細資訊,請參閱 Azure 配對區域。
服務可用性:決定解決方案所使用的資源應為經常性存取層/經常性存取、經常性存取層/暖存取層或經常性存取層/冷存取層。
- 經常性存取層/經常性存取層:兩個區域同時為作用中,其中一個區域準備好立即開始使用。
- 經常性存取層/暖存取層:主要區域處於作用中,次要區域具有重要資源 (例如已部署的模型) 且準備開始使用。 非重要資源必須手動部署在次要區域中。
- 經常性/非經常性:主要區域作用中、次要區域已部署 Azure AI Foundry 和其他資源,以及所需的數據。 模型、模型部署或管線等資源需要手動部署。
提示
視您的商務需求而定,您可能會決定以不同的方式處理不同的 Azure AI Foundry 資源。
Azure AI Foundry 建置在其他服務之上。 某些服務可設定為複寫至其他區域。 其他服務則須由您在多個區域中手動建立。 下表提供服務清單、複寫負責者,以及設定的概觀:
Azure 服務 | 異地複寫者 | 組態 |
---|---|---|
Azure AI Foundry 中樞和專案 | 您 | 在選取的區域建立中樞/專案。 |
Azure AI Foundry 計算 | 您 | 在選取的區域中建立計算資源。 針對可動態調整的計算資源,請確定這兩個區域都能為您的需求提供足夠的計算配額。 |
Key Vault | Microsoft | 在兩個區域中,搭配 Azure AI Foundry 中樞和資源使用相同的 金鑰保存庫 實例。 Key Vault 會自動容錯移轉至次要區域。 如需詳細資訊,請參閱 Azure Key Vault 可用性與備援。 |
儲存體帳戶 | 您 | Azure Machine Learning 不支援使用異地複寫儲存體 (GRS)、異地區域備援儲存體 (GZRS)、讀取權限異地備援儲存體 (RA-GRS),或讀取權限異地區域備援儲存體 (RA-GZRS) 的預設儲存體帳戶容錯移轉。 根據您的需求設定儲存體帳戶,然後將其用於中樞。 所有後續專案都會使用中樞的儲存體帳戶。 如需詳細資訊,請參閱 Azure 儲存體備援 \(部分機器翻譯\)。 |
Container Registry | Microsoft | 將 Container Registry 實例設定為將登錄異地複寫至 Azure AI Foundry 的配對區域。 這兩個中樞執行個體皆會使用相同的執行個體。 如需詳細資訊,請參閱 Azure Container Registry 中的異地複寫。 |
Application Insights | 您 | 在兩個區域中建立中樞的 Application Insights。 如要調整資料保留期間和詳細資訊,請參閱 Application Insights 中的資料收集、保留和儲存。 |
如要在次要區域中啟用快速復原並重新啟動,建議使用下列開發做法:
- 使用 Azure Resource Manager 範本。 範本是「基礎結構即程式碼」,可讓您快速地在這兩個區域中部署服務。
- 為了避免兩個區域之間的漂移,請更新您的持續整合和部署管線,以部署至這兩個區域。
- 為這兩個區域中的使用者建立角色指派。
- 建立兩個區域的網路資源,例如 Azure 虛擬網路和私人端點。 請確定使用者可以存取這兩個網路環境。 例如,兩個虛擬網路的 VPN 和 DNS 設定。
高可用性設計
可用性區域
特定 Azure 服務可支援可用性區域。 對於支援可用性區域的區域,如果某個區域停止運作,則任何專案都會暫停,且資料會儲存。 不過,在區域重新上線之前,無法重新整理資料。
如需詳細資訊,請參閱 可用性區域服務支援。
將重要元件部署至多個區域
判斷您的目標商務持續性層級。 您解決方案的元件之間可能會有不同的層級。 例如,您可能會想要有適用於生產管線或模型部署的經常性存取層/經常性存取層設定,以及適用於開發的經常性存取層/極非經常性存取層設定。
Azure AI Foundry 是區域服務,可同時在訂用帳戶中的服務端和記憶體帳戶上儲存數據。 如果發生區域性災害,服務資料無法復原。 但是,如果強制執行儲存體備援,則您可以復原服務儲存在訂用帳戶中儲存體帳戶上的資料。 服務端儲存的資料大多是中繼資料 (標籤、資產名稱、描述)。 儲存在您儲存體帳戶上的資料通常不是中繼資料,例如上傳的資料。
若要連線,建議您在兩個不同的區域中建立兩個不同的資源,然後為中樞建立兩個連線。 例如,如果 AI 服務是商務持續性的重要資源,為中樞建立兩個 AI 服務資源和兩個連線是商務持續性的良好策略。 使用此設定時,如果有一個區域停止運作,仍有一個區域可運作。
對於用於商務持續性的任何必要中樞,請在兩個區域中部署資源。
隔離儲存區 (Isolated Storage)
在與資料連線以自訂 AI 應用程式的案例中,您的資料集通常可用於 Azure AI,但也可在 Azure AI 外部使用。 資料集數量可能相當大,因此最好將此資料保留在不同的儲存體帳戶中。 評估哪一個資料復寫策略對您的使用案例最有意義。
在 Azure AI Foundry 入口網站中,建立數據連線。 如果您在不同區域中有多個 Azure AI Foundry 實例,您仍可能會指向相同的記憶體帳戶,因為跨區域連線運作。
起始容錯移轉
在容錯移轉中樞內繼續工作
當主要中樞無法使用時,您可以切換至次要中樞以繼續開發。 如果中斷,Azure AI Foundry 不會自動將作業提交至次要中樞。 請更新您的程式碼設定,以指向新的中樞或專案資源。 建議您避開硬式編碼中樞或專案參考。
Azure AI Foundry 無法同步處理或復原中樞之間的成品或元數據。 視應用程式部署策略而定,您可能必須移動或重新建立容錯移轉中樞中的成品,才能繼續。 若您設定主要中樞和次要中樞來共用已啟用異地複寫的相關聯資源,則可能會有一些物件可直接用於容錯移轉中樞。 例如,若這兩個中樞共用相同的 docker 映像、已設定的資料存放區,以及 Azure Key Vault 資源。
注意
發生服務中斷時,任何執行中的作業都不會自動轉換至次要中樞。 在中斷問題解決之後,主要中樞中的作業也不太可能成功地繼續並順利完成。 取而代之的是,在中斷問題解決之後,必須在次要中樞或主要中樞中重新提交這些作業。
復原選項
資源刪除
如果不小心刪除中樞及其現有資源,則已啟用虛刪除的某些資源可用於資源復原。 中樞和專案不支援虛刪除。 無法復原已刪除的中樞或專案。 某些基礎資源可能支援虛刪除,因此可能可以將這些資源復原。 請參閱資料表,了解哪些服務具有虛刪除選項。
服務 | 已啟用虛刪除 |
---|---|
Azure AI Foundry 中樞 | 不支援 |
Azure AI Foundry 專案 | 不支援 |
Azure AI 服務資源 | Yes |
Azure 儲存體 | 請參閱復原已刪除的儲存體帳戶。 |
Azure Key Vault | Yes |
下一步
- 若要瞭解使用 Azure AI Foundry 進行安全的基礎結構部署,請參閱 建立安全中樞。
- 如需有關 SLA 的資訊,請參閱 Azure 服務等級協定。