Zagadnienia dotyczące ciągłości działania i odzyskiwania po awarii (BCDR) w usłudze Azure OpenAI Service
Usługa Azure OpenAI jest dostępna w wielu regionach. Podczas tworzenia zasobu usługi Azure OpenAI należy określić region. Od tego momentu zasób i wszystkie jego operacje pozostają skojarzone z tym regionem serwera platformy Azure.
Problem z siecią, który dotyczy całego regionu, zdarza się rzadko, ale nie jest niemożliwy. Jeśli usługa musi być zawsze dostępna, należy zaprojektować ją w celu przejścia w tryb failover do innego regionu lub podzielenia obciążenia między co najmniej dwa regiony. Oba podejścia wymagają co najmniej dwóch zasobów usługi Azure OpenAI w różnych regionach. Ten artykuł zawiera ogólne zalecenia dotyczące implementowania ciągłości działania i odzyskiwania po awarii (BCDR) dla aplikacji Azure OpenAI.
BcDR wymaga kodu niestandardowego
Obecnie klienci będą wywoływać punkt końcowy podany podczas wdrażania na potrzeby wnioskowania. Operacje wnioskowania są bezstanowe, więc żadne dane nie zostaną utracone, jeśli region stanie się niedostępny.
Jeśli region jest nieoperacyjny, klienci muszą wykonać kroki w celu zapewnienia ciągłości usługi.
BCDR dla modelu podstawowego i dostosowanego modelu
Jeśli używasz modeli podstawowych, należy skonfigurować kod klienta do monitorowania błędów, a jeśli błędy będą się powtarzać, należy przygotować się do przekierowania do innego wybranego regionu, w którym masz subskrypcję usługi Azure OpenAI.
Wykonaj następujące kroki, aby skonfigurować klienta do monitorowania błędów:
Użyj strony modele, aby wybrać odpowiednie centra danych i regiony.
Wybierz z listy jeden lub więcej regionów pomocniczych/kopii zapasowych.
Utwórz zasoby usługi Azure OpenAI dla wybranych regionów.
W przypadku regionu podstawowego i wszystkich regionów tworzenia kopii zapasowych kod musi wiedzieć:
- Podstawowy identyfikator URI zasobu
- Regionalny klucz dostępu lub dostęp do identyfikatora Entra firmy Microsoft
Skonfiguruj kod, aby monitorować błędy łączności (zazwyczaj przekroczenia limitu czasu połączenia i błędy niedostępności usługi).
- Biorąc pod uwagę, że sieci dają błędy przejściowe, w przypadku wystąpień problemów z pojedynczą łącznością sugestia polega na ponowieniu próby.
- W przypadku trwałych problemów z łącznością przekieruj ruch do zasobu kopii zapasowej w utworzonych regionach.
Jeśli model został dostrojony w regionie podstawowym, musisz ponownie wytrenować model podstawowy w regionach pomocniczych przy użyciu tych samych danych treningowych. Następnie wykonaj powyższe kroki.