Azure OpenAI 服務的商務持續性和災害復原 (BCDR) 考量
Azure OpenAI 於多個區域提供。 當您建立 Azure OpenAI 資源時,會指定區域。 從當時刻起,您的資源及其所有作業都會與該 Azure 伺服器區域建立關聯。
遇到影響整個區域的網路問題相當罕見,但並非不可能。 如果您的服務必須保持隨時可用,建議您將其設計為可容錯移轉到另一個區域,或將工作負載分割到兩個或更多區域。 這兩種方法至少需要不同區域中的兩項 Azure OpenAI 資源。 本文提供如何為您的 Azure OpenAI 應用程式實作商務持續性和災害復原 (BCDR) 的一般建議。
BCDR 需要自訂程式碼
現在,客戶會針對推斷呼叫部署期間所提供的端點。 推斷作業為無狀態,因此假如區域變成無法使用時,不會遺失任何資料。
如果區域無法運作,則客戶必須採取步驟以確保服務繼續。
適用於基本模型與自訂模型的 BCDR
如果您使用基本模型,應該設定用戶端程式碼來監視錯誤,且如果錯誤持續發生,請準備好重新導向至您所選擇且有 Azure OpenAI 訂用帳戶的另一個區域。
請遵循下列步驟設定您的用戶端來監視錯誤:
使用 模型 頁面來選擇適合您的資料中心和區域。
從清單選取一個主要區域和一 (或多個) 次要/備份區域。
為每個選取的區域建立 Azure OpenAI 資源。
對於主要區域和任何備份區域,您的程式碼需要知道:
- 資源的基底 URI
- 區域存取金鑰或 Microsoft Entra ID 存取
設定程式碼,以便監視連線錯誤 (通常是連線逾時和服務無法使用錯誤)。
- 如果網路發生暫時性錯誤,對於單一連線問題,建議重試。
- 針對持續發生的連線問題,請將流量重新導向至您在區域中建立的備份資源。
如果您已微調主要區域中的模型,則需要使用相同的訓練資料在次要區域中重新訓練基本模型。 然後遵循上述步驟。