針對事件標識碼 1135 的叢集問題進行疑難解答
本文可協助您診斷和解析事件標識碼 1135,這可能會在故障轉移叢集環境中啟動叢集服務期間記錄。
適用於: Windows Server 2022、Windows Server 2019、Windows Server 2016、Azure Stack HCI、版本 21H2 和 20H2
試用虛擬助理 - 其可協助您快速找出並修正常見 Active Directory 複寫問題。
開始頁面
事件標識碼 1135 表示已從作用中故障轉移叢集成員資格中移除一或多個叢集節點。 它可能會伴隨下列徵兆:
從作用中故障轉移叢集成員資格中移除的叢集故障轉移\節點:
事件識別碼 1069:
仲裁遺失的事件標識碼 1177:
叢集服務的事件標識碼 1006 已停止:
建議使用驗證和網路測試作為其中一個初始疑難解答步驟,以確保沒有可能導致問題的設定問題。
檢查是否已安裝建議的熱修正程式
叢集服務是控制故障轉移叢集作業的所有層面及管理叢集組態資料庫的基本軟體元件。 如果您看到事件標識碼 1135,建議您安裝下列文章中所述的修正程式,並重新啟動叢集的所有節點,然後觀察是否發生問題。
- 適用於 Windows Server 2012 R2 架構容錯移轉叢集的建議 Hotfix 和更新
- 適用於 Windows Server 2012 架構容錯移轉叢集的建議 Hotfix 和更新
- Windows Server 2008 R2 SP1 故障轉移叢集的建議 Hotfix 和更新
檢查叢集服務是否在所有節點上執行
根據您的 Windows 作業系統遵循下列命令,驗證叢集服務是否持續執行且可供使用。
針對 Windows Server 2008 R2 叢集
從提升權限的命令提示字元,執行 cluster.exe node /stat
。
針對 Windows Server 2012 和 Windows Server 2012 R2 叢集
執行下列 PowerShell Cmdlet: Get-ClusterResource
叢集服務是否持續執行且可在所有節點上使用?
事件標識碼 1135 的數個案例
我們希望您進一步瞭解叢集所有節點上的系統事件記錄檔。 檢閱您在節點上看到的事件標識碼 1135,並複製此事件的所有實例。 這可讓您方便查看並檢閱它們。
Event ID 1135
Cluster node ' **NODE A** ' was removed from the active failover cluster membership. The Cluster service on this node may have stopped.
This could also be due to the node having lost communication with other active nodes in the failover cluster.
Run the Validate a Configuration wizard to check your network configuration.
If the condition persists, check for hardware or software errors related to the network adapters on this node.
Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.
有三個典型案例:
案例 A
您正在查看叢集中的所有事件和所有節點,表示節點 A 已失去通訊。
當您在節點 A 上看到系統記錄時,可能會有叢集中所有剩餘節點的事件。
解決方案
這相當表明,在問題發生時,可能是因為網路壅塞或節點 A 的通訊遺失。
您應該檢閱並驗證網路設定和通訊問題。 請記得尋找與節點 A 相關的問題。
案例 B
您正在查看節點上的事件,讓我們說您的叢集分散到兩個月臺。 月臺 1 的節點 A、節點 B 和節點 C,以及月臺 2 的節點 D 和節點 E。
在節點 A、B 和 C 上,您會看到記錄的事件是為了連線到節點 D 和 E。同樣地,當您在 Nodes D 和 E 上看到事件時,這些事件會建議我們與 A、B 和 C 失去通訊。
解決方案
如果您看到類似的活動,表示透過連接這些網站的連結發生通訊失敗。 建議您檢閱跨月台的連線,如果這是透過WAN 連線,建議您向ISP確認連線能力。
案例 C
您正在查看節點上的事件,您會看到節點的名稱不會以任何特定模式來指出。 讓我們說您的叢集分散在兩個月臺。 月臺 1 的節點 A、節點 B 和節點 C,以及月臺 2 的節點 D 和節點 E。
- 在節點 A 上:您會看到節點 B、D、E 的事件。
- 在節點 B 上:您會看到節點 C、D、E 的事件。
- 在節點 C 上:您會看到節點 A、B、E 的事件。
- 在節點 D 上:您會看到節點 A、C、E 的事件。
- 在節點 E 上:您會看到節點 B、C、D 的事件。
- 或任何其他組合。
解決方案
當節點之間的網路通道中斷且叢集通訊訊息無法及時連線時,可能會發生這類事件,讓叢集覺得節點之間的通訊遺失,而導致節點成員資格移除。
檢閱叢集網路
建議您逐一檢查下列三個選項,以繼續此疑難解答指南,以檢閱您的叢集網路。
檢查防病毒軟體排除
在執行叢集服務的伺服器上,從病毒掃描中排除下列檔案系統位置:
- FileShare 見證的路徑
- %Systemroot%\Cluster 資料夾
設定防病毒軟體內的即時掃描元件,以排除下列目錄和檔案:
默認虛擬機組態目錄 (C:\ProgramData\Microsoft\Windows\Hyper-V)
自定義虛擬機組態目錄
默認虛擬硬碟目錄 (C:\Users\Public\Documents\Hyper-V\Virtual 硬盘)
自定義虛擬硬碟目錄
如果您使用 Hyper-V 複本,則自訂複寫資料目錄
快照集目錄
mms.exe
注意
此檔案可能必須設定為防病毒軟體內的處理程式排除。
Vmwp.exe
注意
此檔案可能必須設定為防病毒軟體內的處理程式排除。
此外,當您搭配叢集共用磁碟區使用即時移轉時,請排除 CSV 路徑 C:\Clusterstorage 及其所有子目錄。 如果您要針對故障轉移問題進行疑難解答,或已安裝叢集服務和防病毒軟體的一般問題,請暫時卸載防病毒軟體,或檢查軟體製造商,以判斷防病毒軟體是否與叢集服務搭配運作。 在大部分情況下,只要停用防病毒軟體就不足。 即使您停用防病毒軟體,當您重新啟動計算機時,仍會載入篩選驅動程式。
檢查防火牆中的網路埠設定
叢集服務會控制伺服器叢集作業,並管理叢集資料庫。 叢集是一組作為一台電腦使用的獨立電腦。 管理員、程式設計師和使用者看到的是作為單一系統的叢集。 軟體會在該叢集中的節點之間散發資料。 如果節點失敗,則其他節點會提供以前因遺失的節點所提供的服務和資料。 新增或修復節點後,叢集軟體會將部分資料移轉至該節點。
系統服務名稱:ClusSvc
申請 | 通訊協定 | 連接埠 |
---|---|---|
叢集服務 | UDP | 3343 |
叢集服務 | TCP | 3343 (在進行節點加入作業時,此連接埠是必要的。) |
RPC | TCP | 135 |
叢集管理員 | UDP | 137 |
Kerberos | UDP/TCP | 464* |
SMB | TCP | 445 |
隨機配置的高 UDP 連接埠** | UDP | 1024 到 65535 之間的隨機埠號碼 49152 到 65535 之間的隨機埠號碼 |
注意
此外,若要在 Windows Server 2008 和更新版本上成功驗證 Windows 故障轉移叢集,請允許 ICMP4、ICMP6 的輸入和輸出流量。
- 如需詳細資訊,請參閱 建立 Windows Server 2012 故障轉移叢集失敗併發生錯誤0xc000005e。
- 如需如何自定義這些埠的詳細資訊,請參閱 Windows 的服務概觀和網路埠需求中的一節。
這是 Windows Server 2012、Windows 8、Windows Server 2008 R2、Windows 7、Windows Server 2008 和 Windows Vista 的範圍。
此外,請執行下列命令來檢查防火牆中的網路埠組態。 例如:此命令可協助判斷用於故障轉移叢集的埠 3343 可用\open:
netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose
針對任何錯誤或警告執行叢集驗證報告
叢集驗證工具會執行一組測試,以確認您的硬體和設定與故障轉移叢集相容。
請遵循這些指示:
針對任何錯誤或警告執行叢集驗證報告。 如需詳細資訊,請參閱 瞭解叢集驗證測試:網路
確認網路是否有警告和錯誤。 如需詳細資訊,請參閱 瞭解叢集驗證測試:網路。
檢查清單網路系結順序
此測試會列出網路系結至每個節點上適配卡的順序。
[配 接器和系結] 索引 卷標會依網路服務存取連線的順序列出連線。 這些連線的順序會反映一般 TCP/IP 呼叫/封包傳送到網路上的順序。
請遵循下列步驟來變更網路適配器的系結順序:
- 選取 [開始],選取 [執行],輸入ncpa.cpl,然後選取 [確定]。 您可以在 [網路連線] 視窗的 [LAN 和高速因特網] 區段中看到可用的連線。
- 在 [進階] 功能表上,選取 [進階設定],然後選取 [配接器和系結] 索引卷標。
- 在 [ 連線] 區域中,選取您想要在清單中往上移動的連線。 使用箭號按鈕來移動連線。 根據一般規則,與網路交談的卡片(網域連線、路由至其他網路等)應該是第一個系結的卡片(清單頂端) 卡片。
叢集節點是多宿主系統。 網路優先順序會影響 DNS 用戶端以進行輸出網路連線。 用於用戶端通訊的網路適配器應以系結順序位於頂端。 非路由網路可以放在優先順序較低的位置。 在 Windows Server 2012 和 Windows Server 2012 R2 中,叢集網路驅動程式 (NETFT.SYS) 適配卡會自動放在系結順序列表中的底部。
檢查驗證網路通訊
網路上的延遲也可能導致這種情況發生。 這些封包可能不會在節點之間遺失,但在逾時期間到期之前,它們可能無法快速到達節點。
此測試會驗證測試的伺服器是否能夠與所有網路上可接受的延遲通訊。
例如:在 [驗證網络通訊] 下,您可能會看到下列網路等待時間問題的訊息:
Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).
Either address 10.0.0.96 is not reachable from 192.168.0.2 or **the ping latency is greater than the maximum allowed 2000 ms**
This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networks
Either address 192.168.0.2 is not reachable from 10.0.0.96 or **the ping latency is greater than the maximum allowed 2000 ms**
This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks
針對多月臺叢集,您可以增加逾時值。 如需詳細資訊,請參閱 在多網站故障轉移叢集中設定活動訊號和 DNS 設定。
請洽詢 ISP 是否有任何 WAN 連線問題。
檢查您是否遇到下列任何問題。
節點之間遺失的網路封包
使用效能檢查封包遺失
如果封包在節點之間某處的網路上遺失,活動訊號將會失敗。 我們可以使用 效能監視器 查看「網路介面\封包已捨棄」計數器,輕鬆地找出此問題。 一旦您新增此計數器之後,請查看 Average、Minimum 和 Maximum 數位,如果這些數位是任何高於零的值,則必須調整適配卡的接收緩衝區。
如果您在 VMware 虛擬化平臺上遇到網路封包遺失,請參閱
一節。 升級 NIC 驅動程式
此問題可能是因為過期的 NIC 驅動程式\整合元件 (IC)\VmTools 或錯誤的 NIC 配接器所造成。 如果實體機器上的節點之間有網路封包遺失,請更新網路適配器驅動程式。 舊版或過期的網路卡驅動程式和/或韌體。 有時,網路卡或交換器的簡單設定錯誤也可能會導致活動訊號遺失。
安裝在 VMware 虛擬化平臺中的叢集
在 VMware 環境中確認 VMware 適配卡問題。
如果封包在高流量高載期間卸除,就可能發生此問題。 請確定沒有發生流量篩選(例如,使用郵件篩選)。 消除此可能性之後,請逐漸增加客體操作系統中的緩衝區數目並驗證。
若要減少高載流量下降,請遵循下列步驟:
- 選取 [開始],選取 [執行],輸入
devmgmt.msc
,然後按 Enter。 - 展開 [ 網络適配器],以滑鼠右鍵按兩下 vmxnet3 ,然後選取 [ 屬性]。
- 選取 [進階] 索引標籤。
- 選取 [Small Rx Buffers] ,並增加值。 默認值為 512,最大值為 8192。
- 選取 [Rx Ring ] #1 [大小],然後增加值。 默認值為 1024,最大值為 4096。
請檢查下列文章,以確認 VMware 環境發生 VMware 適配卡問題:
- 從 VMware ESX 上的故障轉移叢集成員資格中移除的節點。
- ESXi VMXNET3 vNIC 上客體作業系統層級的大型封包遺失
請注意任何網路壅塞
網路壅塞也可能造成網路連線問題。
確認您的網路已根據 MS 和廠商的建議進行設定,請參閱 設定 Windows 故障轉移叢集網路。
檢查網路設定
如果仍然無法運作,請檢查您是否已在叢集 GUI 中看到分割網路,或已在活動訊號 NIC 上啟用 NIC 小組。
如果您在叢集 GUI 中看到分割的網路,請參閱 「分割」叢集網路 ,以針對問題進行疑難解答。
如果您已在活動訊號 NIC 上啟用 NIC 小組,請根據小組廠商的建議檢查 Teaming 軟體功能。
升級 NIC 驅動程式
此問題可能會因為過期的 NIC 驅動程式或錯誤的 NIC 適配卡而發生。
如果實體機器上的節點之間有網路封包遺失,請更新網路適配器驅動程式。 舊版或過期的網路卡驅動程式和/或韌體。
有時,網路卡或交換器的簡單設定錯誤也可能會導致活動訊號遺失。
檢查網路設定
如果仍然無法運作,請檢查您是否已在叢集 GUI 中看到分割網路,或已在活動訊號 NIC 上啟用 NIC 小組。