Exchange Online 資料復原
Exchange 不僅最常使用Microsoft在線服務之一,還可作為 Teams 等許多其他Microsoft 365 服務的長期數據記憶體。 基於這個理由,Exchange 已強固地架構,以確保在面對未預期的中斷時,在數據完整性和可用性方面具有高復原能力。
操作復原能力
資料庫可用性群組
Microsoft 365 中的每個信箱資料庫都會裝載在 資料庫可用性群組中, (DAG) ,並復寫到相同區域內地理位置不同的數據中心。 最常見的設定是四個數據中心內的四個資料庫複本;不過,有些區域的數據中心較少, (資料庫會復寫到印度的三個數據中心,而澳洲與日本有兩個數據中心) 。 但是在所有情況下,每個信箱資料庫都有四個散發到多個數據中心的複本,藉此確保信箱數據受到保護,免於軟體、硬體,甚至是數據中心失敗。
在這四個複本中,有三個會設定為高可用性。 第四個複本設定為 延遲的資料庫複本。 延遲的資料庫復本不適用於個別信箱復原或信箱項目復原。 其目的是提供復原機制,以處理整個系統之罕見的重大邏輯損毀事件。
Exchange Online 中延遲的資料庫複本會設定為 7 天的記錄檔重新執行延遲時間。 此外,Exchange Replay Lag Manager 已啟用,可為延遲的複本提供動態記錄檔播放,以允許延遲的資料庫複本自行修復及管理記錄檔成長。 雖然 Exchange Online 中使用延遲的資料庫複本,但請務必瞭解它們不是保證的時間點備份。 Exchange Online 中延遲的資料庫複本具有可用性臨界值,通常約為 90%,因為包含延遲複本的磁碟因磁碟失敗而遺失、延遲的複本因自動播放) 而變成高可用性複製 (,以及延遲的資料庫複本重建記錄重新執行佇列的期間。
傳輸復原能力
Exchange Online 包含兩個主要傳輸恢復功能:陰影備援和安全網。 陰影備援會在訊息傳輸時保留訊息的備援複本。 安全網會在成功傳遞訊息之後,保留訊息的備援複本。
使用陰影備援時,每部 Exchange Online 傳輸伺服器都會在確認成功接收訊息給傳送伺服器之前,複製它收到的每個訊息。 這會讓傳輸管線中的所有訊息在傳輸時備援。 如果 Exchange Online 判斷原始訊息在傳輸過程中遺失,則會重新傳遞訊息的備援複本。
Safety Net 是與信箱伺服器上的傳輸服務相關聯的傳輸佇列。 此佇列會儲存伺服器已成功處理的訊息複本。 當信箱資料庫或伺服器失敗需要啟用信箱資料庫的過期複本時,Safety Net 佇列中的訊息會自動重新提交至信箱資料庫的新使用中複本。 Safety Net 也是備援的,因此可將傳輸排除為單一失敗點。 它會使用主要安全網和陰影安全網的概念,其中,如果主要安全網無法使用超過12小時,重新提交要求就會變成陰影重新提交要求,而訊息會從陰影安全網重新傳遞。
來自 Safety Net 的郵件重新提交是由管理 DAG 和信箱資料庫複本之 Microsoft Exchange 複寫服務的 Active Manager 元件自動起始。 不需要手動動作,即可重新提交來自Safety Net的訊息。
預防和更正損毀
原有範圍暫止 會保留所有的信箱內容,包括刪除的項目和修改項目的原始版本。 就地 eDiscovery搜尋時會傳回這類信箱項目。 當您將 In-Place 保留放在使用者的信箱上時,對應封存信箱中的內容 (如果已啟用,) 也會保留,並在電子檔探索搜尋中傳回。
有兩種類型的損毀可能會影響 Exchange 資料庫:實體損毀,通常由硬體 (特別造成、記憶體硬體) 問題,以及因其他因素而發生的邏輯損毀。 一般而言,Exchange 資料庫內可能會發生兩種類型的邏輯損毀:
- 資料庫邏輯損毀 - 資料庫頁面總和檢查碼相符,但頁面上的數據在邏輯上錯誤。 當資料庫引擎 (可延伸儲存引擎 (ESE) ) 嘗試寫入資料庫頁面時,就可能發生這種情況,即使操作系統傳回成功訊息,數據也不會寫入磁碟或寫入錯誤的位置。 這稱為 遺失的排清。 ESE 包含許多功能和保護措施,其設計目的是要防止資料庫的實體損毀和其他數據遺失案例。 為了避免遺失的排清數據遺失,ESE 在資料庫中包含遺失的排清偵測機制,以及 (單一頁面還原功能) 加以修正。
- 儲存邏輯損毀 - 資料會以使用者未預期的方式新增、刪除或操作。 這些案例是由第三方應用程式所造成。 它通常會損毀,因為使用者將其視為損毀。 Exchange 存放區會將產生邏輯損毀的交易視為一系列有效的 MAPI 作業。 Exchange Online 中的就地保留 功能可防止儲存邏輯損毀 (,因為它可防止使用者或應用程式) 永久刪除內容。
Exchange Online 會在記錄檢查和記錄重新執行期間,對復寫的記錄檔執行數個一致性檢查。 這些一致性檢查可防止系統復寫實體損毀。 例如,在記錄檢查期間,有一個實體完整性檢查會驗證記錄檔,並驗證記錄檔中記錄的總和檢查碼是否符合記憶體中產生的總和檢查碼。 此外,也會檢查記錄檔標頭,以確定記錄檔標頭中記錄的記錄檔簽章與記錄檔的簽章相符。 在記錄重新執行期間,記錄檔會經歷進一步的檢查。 例如,資料庫標頭也包含與記錄檔簽章比較的記錄簽章,以確保它們相符。
您可以使用 Exchange 原生數據保護來保護 Exchange Online 中的信箱數據損毀,這是一種復原策略,可利用跨多部伺服器和多個數據中心的應用層級復寫,以及其他可協助保護數據免於因損毀或其他原因而遺失的功能。 這些功能包括Microsoft或 Exchange Online 應用程式本身所管理的原生功能,例如:
- 數據可用性群組
- 單一位更正
- 在線資料庫掃描
- 遺失排清偵測
- 單頁還原
- 信箱復寫服務
- 記錄檔檢查
- 在復原文件系統上部署
如需先前所列原生功能的詳細資訊,請選取超連結,並參閱下列內容以取得其他資訊,以及有關沒有超連結之專案的詳細數據。 除了這些原生功能之外,Exchange Online 也包含客戶可以管理的數據復原功能,例如:
單一位更正
ESE 包含一種機制,可偵測和解決單一位 CRC 錯誤 (也稱為單一位翻轉) ,這是硬體錯誤 (的結果,因此代表實體損毀) 。 發生這些錯誤時,ESE 會自動更正錯誤,並在事件記錄檔中記錄事件。
在線資料庫掃描
在線資料庫掃描 (也稱為 資料庫檢查加總) 是 ESE 使用資料庫一致性檢查程式來讀取每個頁面並檢查頁面損毀的程式。 主要目的是偵測交易作業可能未偵測到的實體損毀和遺失排清。 資料庫掃描也會執行儲存後損毀作業。 空間可能會因為當機而外洩,而在線資料庫掃描會尋找並復原遺失的空間。 系統的設計預期每個資料庫每隔七天會完全掃描一次。
遺失排清偵測
當磁碟子系統/作業系統傳回為已完成的資料庫寫入作業未實際寫入磁碟,或是在錯誤的位置寫入時,就會發生遺失的排清。 遺失排清事件可能會導致資料庫邏輯損毀,因此為了避免遺失排清導致數據遺失,ESE 包含遺失的排清偵測機制。 當資料庫頁面寫入被動複本時,會檢查使用中複本遺失的排清。 如果偵測到遺失的排清,ESE 可以使用頁面修補程式來修復進程。
單頁還原
單一頁面還原也稱為 頁面修補,是一種自動程式,其中損毀的資料庫頁面會由狀況良好的復本中的狀況良好複本取代。 損毀頁面的修復程式取決於資料庫複製是主動還是被動。 當使用中的資料庫復本遇到損毀的頁面時,它可以從其中一個複本複製頁面,前提是它複製的頁面是最新的。 此程式是透過將頁面的要求放入記錄數據流來完成,這是信箱資料庫複寫的基礎。 當復本遇到頁面要求時,它會將頁面複本傳送至要求的資料庫複本來回應。 單一頁面還原也提供異步通訊機制,讓作用中 向複本要求頁面,即使復本目前離線也一樣。
如果被動資料庫複本發生損毀,包括延遲的資料庫複本,因為這些復本一律位於其主動複本後方,所以將任何頁面從主動複製複製到被動複本一律是安全的。 被動資料庫復本本質上是高可用性,因此在頁面修補程式期間,記錄重新執行會暫停,但記錄複製會繼續進行。 被動資料庫複本會從使用中複本擷取損毀頁面的復本、等到複製並檢查符合最大必要記錄產生需求的記錄檔,然後修補損毀的頁面。 一旦修補頁面,記錄重新執行就會繼續。 延遲資料庫複本的程式相同,不同之處在於延遲的資料庫會先重新執行達到可修補狀態所需的所有記錄檔。
信箱復寫服務
移動信箱是管理大規模電子郵件服務的重要部分。 一律會有更新的技術和硬體和版本升級要處理,因此擁有健全且節流的系統可讓我們的工程師完成這項工作,同時確保信箱在整個程式中保持在線) 是關鍵,並確保程式會隨著信箱的大小增加而正常增加,讓信箱保持透明 (。
Exchange 信箱復寫服務 (MRS) 負責在資料庫之間移動信箱。 移動期間,MRS 會對信箱內的所有項目執行一致性檢查。 如果發現一致性問題,MRS 會更正問題,或略過損毀的專案,藉此從信箱中移除損毀。
由於 MRS 是 Exchange Online 的元件,因此我們可以變更其程式代碼,以解決未來偵測到的新形式損毀。 例如,如果我們偵測到 MRS 無法修正的一致性問題,我們可以分析損毀、變更 MRS 程式代碼,並在瞭解如何) 時更正不一致 (。
記錄檔檢查
Exchange 資料庫所產生的所有事務歷史記錄檔都會進行數種形式的一致性檢查。 建立記錄檔時,第一件事就是撰寫位模式,然後執行一系列的記錄寫入。 此結構可讓 Exchange Online 執行一系列的檢查, (遺失排清、CRC 和其他檢查) 在寫入時驗證每個記錄檔,並在複寫時再次執行。
在復原文件系統上部署
為了協助防止文件系統層級發生損毀,Exchange Online 會部署在復原文件系統 (ReFS) 分割區上,以提供改善的復原功能。 ReFS 是 Windows Server 2012 和更新版本中的文件系統,其設計目的是要對數據損毀更具復原能力,進而將數據可用性和完整性最大化。 具體而言,ReFS 會改善元數據的更新方式,為數據提供更好的保護,並減少數據損毀案例。 它也會使用總和檢查碼來驗證檔案數據和元數據的完整性,以確保能夠輕鬆地找到並修復數據損毀。
Exchange Online 利用數個 ReFS 優點:
- 數據完整性中的復原能力越多,表示數據損毀事件較少。 減少損毀事件的數目表示不必要的資料庫重設區較少。
- 在元數據上執行的總和檢查碼可更快且更具決定性地偵測損毀案例,讓我們能夠在數據磁碟區上發生灰色失敗之前修正客戶數據損毀。
- 設計成可與大型數據集搭配使用,PB 和更大,而不會影響效能
- 支援 Exchange Online 所使用的其他功能,例如 BitLocker 加密。
Exchange Online 也受益於其他 ReFS 功能:
- 完整性 (完整性數據流) - ReFS 儲存數據的方式可保護數據免於許多通常可能會造成數據遺失的常見錯誤。 Microsoft 365 搜尋服務會使用完整性數據流來協助早期磁碟損毀偵測和檔案內容的總和檢查碼。 當寫入作業因電源中斷等 ) 而無法完成時,此功能也會減少「損毀寫入」 (所造成的損毀事件。
- 可用性 (復原) - ReFS 會優先處理數據的可用性。 在過去,文件系統通常容易受到數據損毀,而需要讓系統脫機進行修復。 雖然很罕見,但如果發生損毀,ReFS 會實作回收,這項功能會從即時磁碟區的命名空間中移除損毀的數據,並確保良好的數據不會受到無法復原的損毀數據的負面影響。 套用[修復] 功能並將數據損毀隔離到 Exchange Online 資料庫磁碟區,表示我們可以在損毀和修復動作之間,讓損毀磁碟區上未受影響的資料庫保持狀況良好。 此結構會增加通常會受到這類磁碟損毀問題影響的資料庫可用性。