如何為非預期的事件做好準備 (在事件之前)

19 分鐘

為了確保準備周全並將事件的影響降到最低，請務必遵循本單元中所概述的主動式建議。這些動作可協助您了解我們的事件通訊流程、找出相關資訊，以及設定通知以接收及時更新。此外，評估應用程式的復原能力與實作建議的措施將有助於建立更可靠的工作負載，降低事件的潛在影響。最後，檢閱並實作安全性最佳做法將強化您的環境並降低風險。

動作 #1：自行熟悉在 Azure 入口網站中的 Azure 服務健康狀態

不同於我們的公用 azure.status.microsoft 頁面，其只會提供廣泛中斷的一般狀態資訊，Azure 服務健康狀態會提供專為特定資源量身打造的個人化詳細資料。其可協助您預測並準備計劃性維護，以及其他可能會影響資源可用性的變更。您可以參與服務事件和管理動作，以維護受影響應用程式的商務持續性。它會提供 Azure 服務層級的平台弱點、安全性事件和隱私權缺口的重要見解，讓提示動作保護您的 Azure 工作負載。

現在，讓我們探索 Azure 服務健康狀態中可用的一些重要功能，以增強您的事件準備：

[資源健康狀態] 窗格 (涵蓋新體驗)

Azure 資源健康狀態位於 Azure 入口網站的 [服務健康狀態] 刀鋒視窗中，可協助診斷和解決影響 Azure 資源的服務問題。資源，例如虛擬機器、Web 應用程式或 SQL 資料庫，會根據來自不同 Azure 服務的訊號來評估其健康狀態。如果資源識別為狀況不良，則資源健康狀態會進行詳細分析，以判斷問題的根本原因。它也提供 Microsoft 動作的相關資訊，以解決與事件相關的問題，並建議您可以採取的步驟來解決問題。

[服務問題] 窗格 (涵蓋新體驗)

[服務問題] 窗格會顯示可能會影響資源的持續服務事件。它可讓您追蹤問題何時開始，並識別受影響的服務和區域。藉由檢閱最新的更新，您可以深入了解 Azure 對於解決事件的努力。

[服務問題] 窗格的主要功能：

即時深入解析：服務問題儀表板可讓您即時查看影響訂用帳戶和租用戶的 Azure 服務事件。如果您是租用戶管理員，則可以看到與訂用帳戶和租用戶相關的作用中事件或諮詢。
資源影響評估：[事件詳細資料] 區段中的 [受影響的資源] 索引標籤會顯示哪些資源已確認或可能受到影響。按一下資源，即可直接存取 [資源健康狀態] 窗格。
連結與可下載的說明：產生問題的連結以在問題管理系統中使用。您也可以下載 PDF (以及有時 CSV 檔案)，與無法存取 Azure 入口網站的專案關係人共用完整的說明。此外，您可以針對任何影響資源的問題要求「事件後檢閱」(PIR)，先前稱為「根本原因分析」(RCA)。

安全性諮詢窗格

[安全性諮詢] 窗格著重於影響訂用帳戶和租用戶健康情況的緊急安全性相關資訊。其提供平台弱點、安全性事件和隱私權缺口的深入解析。

Azure 服務健康狀態安全性諮詢的螢幕擷取畫面。

[安全性諮詢] 窗格的主要功能：

即時安全性深入解析：立即掌握與您訂用帳戶和租用戶相關的 Azure 安全性事件。

資源影響評估：事件詳細資料區段中的 [受影響的資源] 索引標籤會醒目提示已確認受影響的資源。

獲得下列角色授權的使用者可以檢視安全性受影響的資源資訊：

檢視訂用帳戶層級資源	檢視租用戶層級資源
訂用帳戶擁有者	安全性管理員/安全性讀取者
訂用帳戶管理員	全域管理員/租用戶管理員
服務健康狀態安全性讀取者	Azure 服務健康狀態隱私權讀取者

此外，您可以下載說明 PDF 檔，與沒有 Azure 入口網站直接存取權的專案關係人共用。

下列範例顯示具有訂用帳戶和租用戶範圍受影響資源的安全性事件。

除了自行熟悉 Azure 服務健康狀態之外，另一個重要步驟是設定服務健康狀態警示，可確保及時通知，並讓您了解可能會影響工作負載的事件和重要資訊。下一節將詳細說明此主題。

動作 #2：設定服務健康狀態警示以保持通知

設定服務健康狀態警示通知是主動式事件管理的精髓，也是最重要的行動呼籲。服務健康狀態警示可讓您透過電子郵件、SMS、Webhook 等各種管道及時接收通知。這些警示提供服務事件、計劃性維護活動、安全性事件，以及其他可能影響您工作負載之重要資訊的更新。

您可以從 Azure 入口網站 [服務健康狀態] 刀鋒視窗中的任何 [作用中事件] 窗格設定服務健康狀態警示，按一下 [服務健康狀態] 窗格中的 [健康狀態警示]，或利用 Azure Resource Graph。

您可以在這裡找到適用於 Azure 服務健康狀態的 Azure Resource Graph 範例查詢。

Azure 服務健康狀態諮詢的螢幕擷取畫面。

服務健康狀態會追蹤可能會影響您資源的不同健康狀態事件類型，包括服務問題、計劃性維護、健康情況諮詢和安全性諮詢。設定服務健康狀態警示時，您可以彈性地選擇傳送這些警示的方式和對象。您可以根據服務健康狀態通知、受影響的訂用帳戶、服務和區域類別來自訂警示。

服務健康狀態通知的類別

服務健康狀態事件類型	描述
服務問題	目前 Azure 服務中影響您的問題，也稱為服務事件。
預定的維修	即將進行的維護可能會影響您未來服務的可用性。
健康情況諮詢	需要您注意的 Azure 服務變更。範例包括當您需要採取動作、Azure 功能已被取代、升級需求或超過使用量配額時。
安全性諮詢	在訂用帳戶和租用戶層級處理平台弱點和安全性與隱私權缺口的安全性相關通知，也稱為安全性和/或隱私權事件。

我們知道當問題影響您的服務時，您必須收到通知，而服務健康狀態警示可讓您選擇傳送這些警示的方式和對象。您可以根據服務健康狀態通知、受影響的訂用帳戶、受影響的服務和/或受影響的區域類別來設定警示。您可以設定警示以觸發電子郵件、SMS 訊息、邏輯應用程式、函式等等。

觸發警示時，您可以定義要使用動作群組採取的動作。動作群組是通知喜好設定的集合，可決定警示的傳送方式和對象。

可用通知類型的完整清單

通知類型	描述	欄位
寄送電子郵件給 Azure Resource Manager 角色	根據訂用帳戶成員的角色傳送電子郵件給訂用帳戶成員。通知電子郵件只會傳送至為 Microsoft Entra 使用者設定的主要電子郵件地址。電子郵件只會傳送給所選角色的 Microsoft Entra 使用者成員，而不是傳送給 Microsoft Entra 群組或服務主體。	輸入為 Microsoft Entra 使用者設定的主要電子郵件位址。請參閱電子郵件。
電子郵件	請確定您已正確設定電子郵件篩選和任何惡意程式碼/垃圾郵件預防服務。電子郵件會從下列電子郵件地址傳送: - azure-noreply@microsoft.com - azureemail-noreply@microsoft.com - alerts-noreply@mail.windowsazure.com	輸入應收到通知的電子郵件。
SMS	SMS 通知支援雙向通訊。 SMS 包含下列資訊: - 此警示傳送至動作群組的簡短名稱 - 警示的標題。使用者可以回應 SMS 以： - 取消訂閱所有動作群組或單一動作群組的所有 SMS 警示。 - 重新訂閱警示 - 要求協助。如需受支援 SMS 回覆的詳細資訊，請參閱 SMS 回覆。	輸入 SMS 收件者的 [國碼 (地區碼)] 和 [電話號碼]。如果您無法在 Azure 入口網站中選取您的國碼 (地區碼)，即表示您的國家/地區不支援 SMS。如果您的國碼 (地區碼) 無法使用，您可以在 [分享您的想法] 投票以新增您的國家/地區。作為因應措施，直到支援您的國家/地區為止，請將動作群組設定為將 Webhook 呼叫給支援您國家/地區的第三方 SMS 提供者。
Azure 應用程式推播通知	將通知傳送至 Azure 行動應用程式。若要啟用 Azure 行動應用程式的推播通知，請提供 Azure 行動應用程式的詳細資訊，請參閱 Azure 行動應用程式。	在 [Azure 帳戶電子郵件] 欄位中，輸入您在設定 Azure 行動應用程式時用來作為帳戶識別碼的電子郵件地址。
語音	語音通知。	輸入通知收件者的 [國碼 (地區碼)] 和 [電話號碼]。如果您無法在 Azure 入口網站中選取您的國碼 (地區碼)，即表示您的國家/地區不支援語音通知。如果您的國碼 (地區碼) 無法使用，您可以在 [分享您的想法] 投票以新增您的國家/地區。作為因應措施，直到支援您的國家/地區為止，請將動作群組設定為將 Webhook 呼叫給支援您國家/地區的第三方語音電話提供者。

您可以觸發的動作完整清單

動作類型	詳細資料
自動化 Runbook	如需自動化 Runbook 承載限制的相關資訊，請參閱自動化限制。
事件中樞	[事件中樞] 動作會將通知發佈至 [事件中樞]。如需事件中樞的詳細資訊，請參閱 Azure 事件中樞 - 巨量資料串流平台和事件擷取服務。您可以從事件接收者訂閱警示通知資料流程。
函式	在函式中呼叫現有的 HTTP 觸發程序端點。如需詳細資訊，請參閱 Azure Functions。當您定義函式動作時，函式的 HTTP 觸發程序端點和存取金鑰會儲存在動作定義中，例如 `https://azfunctionurl.azurewebsites.net/api/httptrigger?code=<access_key>`。如果您變更函式的存取金鑰，則必須移除並重新建立動作群組中的函式動作。您的端點必須支援 HTTP POST 方法。函式必須具有儲存體帳戶的存取權。如果沒有存取權，則無法使用金鑰，且無法存取函式 URI。了解如何還原儲存體帳戶的存取權。
ITSM	ITSM 動作需要 ITSM 連線。若要了解如何建立 ITSM 連線，請參閱 ITSM 整合。
邏輯應用程式	您可以使用 Azure Logic Apps 來建置和自訂整合的工作流程，以及自訂警示通知。
安全 Webhook	當您使用安全 Webhook 動作時，必須使用 Microsoft Entra ID 來保護動作群組與端點之間的連線，這是受保護的 Web API。請參閱設定安全 Webhook 的驗證。安全 Webhook 不支援基本驗證。如果您使用基本驗證，請使用 Webhook 動作。
Webhook	如果您使用 Webhook 動作，您的目標 Webhook 端點必須能夠處理不同警示來源發出的各種 JSON 承載。您無法透過 Webhook 動作傳遞安全性憑證。若要使用基本驗證，您必須透過 URI 傳遞認證。如果 Webhook 端點需要特定結構描述，例如 Microsoft Teams 結構描述，請使用 Logic Apps 動作類型來操作警示結構描述，以符合目標 Webhook 的期望。如需用於重試 Webhook 動作規則的相關資訊，請參閱 Webhook。

請記住，大部分的服務事件都會影響幾個訂用帳戶，因此這些事件不會顯示在 status.azure.com 等位置。您可以從入口網站設定服務健康狀態警示 - 如果您想要自動建立，也可以透過 PowerShell 或 ARM 範本來設定警示。

藉由有效地設定服務健康狀態警示和動作群組，您可以確定將會收到及時通知，並採取適當的動作來減輕事件對 Azure 資源的影響。

注意

尋找要監視哪些事件以及您應該設定哪些事件警示的協助？您需要的是「Azure 監視器基準警示」解決方案。它提供完整的指導和程序碼，可透過 Azure 環境中的原則和計劃實作平台警示基準，以及服務健康狀態警示，且包含自動化或手動部署的選項。解決方案包含預先定義的原則，可針對各種 Azure 資源類型自動建立所有服務健康狀態事件類型 (服務問題、計劃性維護、健康狀態諮詢以及安全性諮詢)、動作群組和警示處理規則的警示。雖然重點在於監視 Azure 登陸區域 (ALZ) 架構環境，但它也為目前未與 ALZ 架構棕地對齊的棕地客戶提供指導。

動作 #3：考慮資源健康狀態警示或已排定事件，以通知您資源特定問題

設定服務健康狀態警示之後，也請考慮採用資源健康狀態警示。無論原因為何，當這些資源的健全狀態有所變更時，Azure 資源健康狀態警示可以近乎即時地通知您。

「服務健康狀態」警示與「資源健康狀態」警示之間的主要區別在於，前者會在已知的平台問題期間觸發，例如 Microsoft 正在調查的持續中斷 (服務事件)。相反地，後者會在特定資源被視為狀況不良時觸發，而不論根本原因為何。

您可以從 Azure 入口網站 [服務健康狀態] 刀鋒視窗中的 [資源健康狀態] 窗格設定資源健康狀態警示。

Azure 服務健康狀態資源健康狀態的螢幕擷取畫面。

您也可以使用 Azure Resource Manager 範本和 Azure PowerShell，以程式設計方式建立資源健康狀態警示。以程式設計方式建立資源健康狀態警示可讓您大量建立和自訂警示。

虛擬機器的已排定事件，以避免影響

已排定事件是另一個絕佳的工具，上述兩種「警示」類型都會通知人員或系統，而已排定事件會自行通知資源。這可讓應用程式有時間準備虛擬機器維護，或我們的其中一個自動化服務修復事件。它提供即將發生維護事件 (例如，即將重新啟動) 的訊號，讓應用程式知道這一點，然後採取行動來限制中斷 - 例如，藉由執行自動化將自己從集區中卸除，否則會正常降級。已排定事件適用於所有 Azure 虛擬機器類型，包括 Windows 和 Linux 上的 PaaS 和 IaaS。

注意

雖然資源健康狀態警示和已排定事件都是實用的工具，但最重要的行動呼籲是設定服務健康狀態警示。請務必確保您了解資源發生的情況、我們正在處理的事件，以及緩解時間。

動作 #4：增加投資的安全性以保護您的環境

藉由檢閱和實作營運安全性最佳做法，確保能夠保護 Azure 中的資料、應用程式和其他資產。這些最佳做法衍生自使用 Azure 平台目前功能和特性之人員的集體知識與經驗。本文會定期更新，以反映不斷演變的意見和技術。

作為起點，請考慮下列首要實作建議：

需要所有使用者的雙步驟驗證。這包括您組織中其帳戶遭到入侵時可能會產生重大影響的系統管理員和其他人 (例如財務長)。強制執行多重要素驗證 (部分機器翻譯) 以減輕這種暴露的擔憂。
在您的租用戶上設定並啟用風險原則，以便在您的環境中存在「任何人」時收到警示。這會為風險事件建立警示，例如匿名 IP 位址使用、非慣用移動、不熟悉的登入屬性，且將進一步觸發補救工作，例如多重要素驗證、重設密碼等，以確保客戶維持安全。
控制訂用帳戶往來於目錄的移動作為主動式措施，以備妥並感知您環境中的「任何人」。這可確保您組織能夠完整檢視所使用的訂用帳戶，並防止可能移至未知目錄的訂用帳戶移動。
定期輪替所有全域與訂用帳戶管理員的認證，以協助防範潛在的安全性缺口、遭入侵的帳戶，或未經授權使用特殊權限。定期輪替認證可為您的環境提供額外的一層安全性，並協助維護資料和資源的完整性和機密性。
檢閱並定期更新租用戶內的所有全域管理員使用者和電話號碼

動作 #5：增加重要 Azure 工作負載的復原能力，而有機會避免或將影響降到最低

為了確保工作負載的可靠性，請務必使用 Microsoft Azure Well-Architected Framework (WAF) 的原則，透過 Microsoft Azure Well-Architected Review 來評估這些工作負載。 WAF 也提供復原測試的建議，包括採用混沌工程方法。

應用程式應通過測試，以確保可用性和復原能力。可用性是指應用程式在沒有重大停機情況下運作的持續時間，而復原能力可測量應用程式從失敗中復原的速度。

若要在您使用 WAF 時獲得輔助，請考慮實作下列首要建議，並利用所提供的工具來協助您檢查和建置應用程式中的復原能力：

在 Azure 入口網站的 [Azure Advisor] 刀鋒視窗下，利用整合式 [可靠性活頁簿] 來評估應用程式的可靠性狀態、找出潛在風險，以及規劃和實作改進。
透過跨多個區域部署工作負載和資源，以增強商務持續性和災害復原 (BCDR)。如需最佳的跨區域部署選項，請參閱 Azure 區域配對的完整清單。
將工作負載/資源部署分散至可用性區域，將區域內的可用性最大化。
請考慮針對需要高度隔離等級的業務關鍵工作負載，在 Azure 中使用隔離的虛擬機器大小。這些大小可保證您的虛擬機器專用於特定硬體類型，並獨立運作。如需詳細資訊，請參閱這裡：Azure 中 VM 的隔離 - Azure 虛擬機器 | Microsoft Learn。
請考慮使用維護組態，以更妥善地控制和管理 Azure 虛擬機器的更新。這項功能可讓您排程和管理更新，確保對無法容忍維護活動期間停機的敏感性工作負載造成最少的中斷。
藉由實作區域間或區域內的備援來增強備援能力。如需指導，請參閱高可用性區域備援 Web 應用程式的範例。
使用 Azure Chaos Studio 來增強應用程式的復原能力。使用此工具，您可以刻意為 Azure 應用程式引入受控的錯誤，讓您評估其復原能力，並觀察它們如何回應各種中斷，例如網路延遲、儲存體中斷、過期祕密和資料中心失敗。
利用 Azure 入口網站中 [Azure Advisor] 刀鋒視窗下的 [服務淘汰活頁簿]。此整合式工具可協助您隨時掌握可能會影響重要工作負載的任何服務淘汰情況，讓您有效地規劃和執行必要的移轉。

注意

擁有頂級/統一支援合約的客戶可以利用客戶成功小組來擬定策略及實作 Well-Architected Framework 評估 (WAF)。