Azure OpenAI 服務的商務持續性和災害復原 (BCDR) 考量

發行項
10/16/2024

Azure OpenAI 於多個區域提供。當您建立 Azure OpenAI 資源時，會指定區域。從當時刻起，您的資源及其所有作業都會與該 Azure 伺服器區域建立關聯。

遇到影響整個區域的網路問題相當罕見，但並非不可能。如果您的服務必須保持隨時可用，建議您將其設計為可容錯移轉到另一個區域，或將工作負載分割到兩個或更多區域。這兩種方法至少需要不同區域中的兩項 Azure OpenAI 資源。本文提供如何為您的 Azure OpenAI 應用程式實作商務持續性和災害復原 (BCDR) 的一般建議。

BCDR 需要自訂程式碼

現在，客戶會針對推斷呼叫部署期間所提供的端點。推斷作業為無狀態，因此假如區域變成無法使用時，不會遺失任何資料。

如果區域無法運作，則客戶必須採取步驟以確保服務繼續。

適用於基本模型與自訂模型的 BCDR

如果您使用基本模型，應該設定用戶端程式碼來監視錯誤，且如果錯誤持續發生，請準備好重新導向至您所選擇且有 Azure OpenAI 訂用帳戶的另一個區域。

請遵循下列步驟設定您的用戶端來監視錯誤：

使用模型頁面來選擇適合您的資料中心和區域。
從清單選取一個主要區域和一 (或多個) 次要/備份區域。
為每個選取的區域建立 Azure OpenAI 資源。
對於主要區域和任何備份區域，您的程式碼需要知道：
- 資源的基底 URI
- 區域存取金鑰或 Microsoft Entra ID 存取
設定程式碼，以便監視連線錯誤 (通常是連線逾時和服務無法使用錯誤)。
- 如果網路發生暫時性錯誤，對於單一連線問題，建議重試。
- 針對持續發生的連線問題，請將流量重新導向至您在區域中建立的備份資源。

如果您已微調主要區域中的模型，則需要使用相同的訓練資料在次要區域中重新訓練基本模型。然後遵循上述步驟。

共用方式為

Azure OpenAI 服務的商務持續性和災害復原 (BCDR) 考量

BCDR 需要自訂程式碼

適用於基本模型與自訂模型的 BCDR

意見反應

其他資源