Rozwiązywanie problemów z klastrem z identyfikatorem zdarzenia 1135
Ten artykuł pomaga zdiagnozować i rozpoznać identyfikator zdarzenia 1135, który może być rejestrowany podczas uruchamiania usługi klastra w środowisku klastra trybu failover.
Dotyczy: Windows Server 2022, Windows Server 2019, Windows Server 2016, Azure Stack HCI, wersje 21H2 i 20H2
Wypróbuj naszego agenta wirtualnego — może pomóc w szybkim zidentyfikowaniu i rozwiązaniu typowych problemów z replikacją usługi Active Directory.
Strona początkowa
Identyfikator zdarzenia 1135 wskazuje, że co najmniej jeden węzeł klastra został usunięty z aktywnego członkostwa w klastrze trybu failover. Mogą towarzyszyć mu następujące objawy:
Klaster failover\węzły usuwane z aktywnego członkostwa w klastrze trybu failover:
Wystąpił problem z usunięciem węzłów z aktywnego członkostwa w klastrze trybu failover
Identyfikator zdarzenia 1069:
Identyfikator zdarzenia 1069 — dostępność usługi klastrowanej lub aplikacji
Identyfikator zdarzenia 1177 dla utraty kworum:
Identyfikator zdarzenia 1177 — kworum i łączność wymagana do kworum
Zatrzymano zdarzenie o identyfikatorze 1006 dla usługi klastra:
Walidacja i testy sieciowe byłyby zalecane jako jeden z początkowych kroków rozwiązywania problemów, aby upewnić się, że nie ma problemów z konfiguracją, które mogą być przyczyną problemów.
Sprawdź, czy zainstalowano zalecane poprawki na gorąco
Usługa klastrowania jest podstawowym składnikiem oprogramowania, który kontroluje wszystkie aspekty operacji klastra trybu failover i zarządza bazą danych konfiguracji klastra. Jeśli widzisz zdarzenie o identyfikatorze 1135, zalecamy zainstalowanie poprawek wymienionych w poniższych artykułach i ponowne uruchomienie wszystkich węzłów klastra, a następnie sprawdzenie, czy problem występuje ponownie.
- Zalecane poprawki i aktualizacje dla klastrów trybu failover opartych na systemie Windows Server 2012 R2
- Zalecane poprawki i aktualizacje dla klastrów trybu failover opartych na systemie Windows Server 2012
- Zalecane poprawki i aktualizacje klastrów trybu failover systemu Windows Server 2008 R2 z dodatkiem SP1
Sprawdź, czy usługa klastra działa na wszystkich węzłach
Postępuj zgodnie z poniższym poleceniem zgodnie z systemem operacyjnym Windows, aby sprawdzić, czy usługa klastra jest stale uruchomiona i dostępna.
W przypadku klastra systemu Windows Server 2008 R2
W wierszu polecenia z podwyższonym poziomem uprawnień uruchom polecenie cluster.exe node /stat
.
W przypadku klastrów systemu Windows Server 2012 i Windows Server 2012 R2
Uruchom następujące polecenie cmdlet programu PowerShell: Get-ClusterResource
Czy usługa klastrowania jest stale uruchomiona i dostępna we wszystkich węzłach?
Kilka scenariuszy zdarzenia o identyfikatorze 1135
Chcemy przyjrzeć się bliżej dziennikom zdarzeń systemowych we wszystkich węzłach klastra. Przejrzyj zdarzenie o identyfikatorze 1135, które widzisz w węzłach, i skopiuj wszystkie wystąpienia tego zdarzenia. Ułatwi to zapoznanie się z nimi i przejrzenie.
Event ID 1135
Cluster node ' **NODE A** ' was removed from the active failover cluster membership. The Cluster service on this node may have stopped.
This could also be due to the node having lost communication with other active nodes in the failover cluster.
Run the Validate a Configuration wizard to check your network configuration.
If the condition persists, check for hardware or software errors related to the network adapters on this node.
Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.
Istnieją trzy typowe scenariusze:
Scenariusz A
Patrzysz na wszystkie zdarzenia i wszystkie węzły w klastrze wskazują, że węzeł A stracił komunikację.
Może się okazać, że w przypadku wyświetlania dzienników systemowych w węźle A są wyświetlane zdarzenia dla wszystkich pozostałych węzłów w klastrze.
Rozwiązanie
Sugeruje to, że w momencie wystąpienia problemu z powodu przeciążenia sieci lub w przeciwnym razie komunikacja z węzłem A została utracona.
Należy przejrzeć i zweryfikować problemy z konfiguracją sieci i komunikacją. Pamiętaj, aby wyszukać problemy dotyczące węzła A.
Scenariusz B
Patrzysz na zdarzenia w węzłach i załóżmy, że klaster jest rozproszony w dwóch lokacjach. NODE A, NODE B i NODE C w lokacji 1 i NODE D & NODE E w lokacji 2.
W węzłach A,B i C widać, że zarejestrowane zdarzenia są przeznaczone do łączności z węzłami D i E. Podobnie po wyświetleniu zdarzeń w węzłach D i E zdarzenia sugerują, że utracono komunikację z usługami A, B i C.
Rozwiązanie
Jeśli widzisz podobne działanie, oznacza to, że wystąpił błąd komunikacji za pośrednictwem linku łączącego te witryny. Zalecamy przejrzenie połączenia między lokacjami, jeśli odbywa się to za pośrednictwem połączenia sieci WAN, zalecamy zweryfikowanie z usługodawcą internetowym o łączności.
Scenariusz C
Patrzysz na zdarzenia w węzłach i widzisz, że nazwy węzłów nie są uwzględniane w żadnym konkretnym wzorcu. Załóżmy, że klaster jest rozproszony w dwóch lokacjach. NODE A, NODE B i NODE C w lokacji 1 i NODE D & NODE E w lokacji 2.
- W węźle A: są widoczne zdarzenia dla węzłów B, D, E.
- W węźle B: są widoczne zdarzenia dla węzłów C, D, E.
- W węźle C: są widoczne zdarzenia dla węzłów A, B, E.
- W węźle D: są widoczne zdarzenia dla węzłów A, C, E.
- W węźle E: są widoczne zdarzenia dla węzłów B, C, D.
- Lub inne kombinacje.
Rozwiązanie
Takie zdarzenia są możliwe, gdy kanały sieciowe między węzłami są zadławione, a komunikaty komunikacyjne klastra nie docierają w odpowiednim czasie, co sprawia, że klaster czuje, że komunikacja między węzłami zostanie utracona, co spowoduje usunięcie węzłów z członkostwa w klastrze.
Przeglądanie sieci klastrów
Zalecamy przejrzenie sieci klastrów przez sprawdzenie następujących trzech opcji po jednym, aby kontynuować ten przewodnik rozwiązywania problemów.
Sprawdzanie wykluczenia programu antywirusowego
Wyklucz następujące lokalizacje systemu plików ze skanowania antywirusowego na serwerze z uruchomionymi usługami klastra:
- Ścieżka monitora udziałów plików
- Folder %Systemroot%\Cluster
Skonfiguruj składnik skanowania w czasie rzeczywistym w oprogramowaniu antywirusowym, aby wykluczyć następujące katalogi i pliki:
Domyślny katalog konfiguracji maszyny wirtualnej (C:\ProgramData\Microsoft\Windows\Hyper-V)
Niestandardowe katalogi konfiguracji maszyny wirtualnej
Domyślny katalog wirtualnego dysku twardego (C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)
Niestandardowe katalogi wirtualnych dysków twardych
Niestandardowe katalogi danych replikacji, jeśli używasz repliki funkcji Hyper-V
Katalogi migawek
mms.exe
Uwaga 16.
Ten plik może być skonfigurowany jako wykluczenie procesu w oprogramowaniu antywirusowym.
Vmwp.exe
Uwaga 16.
Ten plik może być skonfigurowany jako wykluczenie procesu w oprogramowaniu antywirusowym.
Ponadto w przypadku korzystania z migracji na żywo wraz z udostępnionymi woluminami klastra wyklucz ścieżkę CSV C:\Clusterstorage i wszystkie jego podkatalogi. Jeśli rozwiązujesz problemy z trybem failover lub występują ogólne problemy z zainstalowanym oprogramowaniem antywirusowym i usługami klastra, tymczasowo odinstaluj oprogramowanie antywirusowe lub sprawdź, czy oprogramowanie antywirusowe współpracuje z usługami klastra. W większości przypadków wyłączenie oprogramowania antywirusowego jest niewystarczające. Nawet jeśli wyłączysz oprogramowanie antywirusowe, sterownik filtru jest nadal ładowany po ponownym uruchomieniu komputera.
Sprawdzanie konfiguracji portu sieciowego w zaporze
Usługa klastrowania steruje działaniami klastrów serwera i zarządza bazą danych klastrów. Klaster to zbiór niezależnych komputerów, które działają jak jeden komputer. Menedżerowie, programiści i użytkownicy widzą klaster jako pojedynczy system. Oprogramowanie rozpowszechnia dane między węzły klastrów. Jeśli węzeł ulegnie awarii, inne węzły dostarczają usługi i dane, które wcześniej były udostępniane przez brakujący węzeł. Gdy węzeł zostanie dodany lub naprawiony, oprogramowanie klastra migruje do tego węzła część danych.
Nazwa usługi systemu: ClusSvc
Aplikacja | Protokół | Porty |
---|---|---|
Usługa klastrowania | UDP | 3343 |
Usługa klastrowania | TCP | 3343 (Ten port jest wymagany podczas operacji sprzężenia węzła). |
Zdalne wywołanie procedury | TCP | 135 |
Administrator klastra | UDP | 137 |
Kerberos | UDP/TCP | 464* |
SMB | TCP | 445 |
Losowo przydzielone wysokie porty UDP** | UDP | Losowy numer portu z zakresu od 1024 do 65535 Losowy numer portu z zakresu od 49152 do 65535*** |
Uwaga 16.
Ponadto w przypadku pomyślnej weryfikacji w klastrach trybu failover systemu Windows w systemie Windows Server 2008 lub nowszym zezwalaj na ruch przychodzący i wychodzący dla protokołu ICMP4, ICMP6.
- Aby uzyskać więcej informacji, zobacz Tworzenie klastra trybu failover systemu Windows Server 2012 Kończy się niepowodzeniem z błędem 0xc000005e.
- Aby uzyskać więcej informacji na temat dostosowywania tych portów, zobacz sekcję "Dokumentacja" w temacie Omówienie usługi i wymagania dotyczące portów sieciowych dla systemu Windows.
Jest to zakres systemów Windows Server 2012, Windows 8, Windows Server 2008 R2, Windows 7, Windows Server 2008 i Windows Vista.
Poza tym uruchom następujące polecenie, aby sprawdzić konfigurację portu sieciowego w zaporze. Na przykład: To polecenie pomaga określić port 3343 dostępny\open używany dla klastra trybu failover:
netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose
Uruchom raport weryfikacji klastra pod kątem błędów lub ostrzeżeń
Narzędzie do sprawdzania poprawności klastra uruchamia zestaw testów, aby sprawdzić, czy sprzęt i ustawienia są zgodne z klastrem trybu failover.
Postępuj zgodnie z poniższymi instrukcjami:
Uruchom raport weryfikacji klastra pod kątem błędów lub ostrzeżeń. Aby uzyskać więcej informacji, zobacz Understanding Cluster Validation Tests: Network (Omówienie testów weryfikacji klastra: sieć)
Sprawdź, czy występują ostrzeżenia i błędy dla sieci. Aby uzyskać więcej informacji, zobacz Opis testów weryfikacji klastra: sieć.
Sprawdź kolejność powiązań sieciowych listy
Ten test zawiera listę kolejności, w jakiej sieci są powiązane z kartami w każdym węźle.
Karta Karty i powiązania zawiera listę połączeń w kolejności, w której połączenia są dostępne przez usługi sieciowe. Kolejność tych połączeń odzwierciedla kolejność, w jakiej ogólne wywołania TCP/IP/pakiety są wysyłane do przewodu.
Wykonaj poniższe kroki, aby zmienić kolejność powiązań kart sieciowych:
- Wybierz pozycję Start, wybierz pozycję Uruchom, wpisz ncpa.cpl, a następnie wybierz przycisk OK. Dostępne połączenia można wyświetlić w sekcji SIEĆ LAN i Szybki Internet w oknie Połączenia sieciowe .
- W menu Zaawansowane wybierz pozycję Ustawienia zaawansowane, a następnie wybierz kartę Adaptery i powiązania.
- W obszarze Połączenia wybierz połączenie, które chcesz przenieść wyżej na liście. Użyj przycisków strzałek, aby przenieść połączenie. Ogólnie rzecz biorąc, karta, która komunikuje się z siecią (łączność z domeną, routing do innych sieci itp., powinna być pierwszą kartą powiązaną (górną część listy).
Węzły klastra to systemy wieloaduszowe. Priorytet sieci wpływa na klienta DNS dla wychodzącej łączności sieciowej. Karty sieciowe używane do komunikacji klienta powinny znajdować się u góry w kolejności powiązania. Sieci inne niż trasy można umieścić w niższym priorytecie. W systemach Windows Server 2012 i Windows Server 2012 R2 karta sterownik sieci klastra (NETFT.SYS) jest automatycznie umieszczana w dolnej części listy kolejności powiązań.
Sprawdzanie poprawności komunikacji sieciowej
Opóźnienie w sieci może również spowodować wystąpienie tego problemu. Pakiety mogą nie zostać utracone między węzłami, ale mogą nie być wystarczająco szybko do węzłów przed upływem limitu czasu.
Ten test sprawdza, czy przetestowane serwery mogą komunikować się z dopuszczalnym opóźnieniem we wszystkich sieciach.
Na przykład: W obszarze Weryfikowanie komunikacji sieciowej mogą zostać wyświetlone następujące komunikaty dotyczące problemów z opóźnieniami sieci:
Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).
Either address 10.0.0.96 is not reachable from 192.168.0.2 or **the ping latency is greater than the maximum allowed 2000 ms**
This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networks
Either address 192.168.0.2 is not reachable from 10.0.0.96 or **the ping latency is greater than the maximum allowed 2000 ms**
This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks
W przypadku klastra z wieloma lokacjami można zwiększyć limit czasu. Aby uzyskać więcej informacji, zobacz Configure Heartbeat and DNS Settings in a Multi-Site Failover Cluster (Konfigurowanie ustawień pulsu i DNS w klastrze trybu failover z wieloma lokacjami).
Zapoznaj się z usługodawcą internetowym, aby uzyskać informacje o problemach z łącznością sieci WAN.
Sprawdź, czy wystąpią jakiekolwiek z następujących problemów.
Pakiety sieciowe utracone między węzłami
Sprawdzanie utraty pakietów przy użyciu wydajności
Jeśli pakiet zostanie utracony w przewodzie gdzieś między węzłami, puls zakończy się niepowodzeniem. Możemy łatwo sprawdzić, czy jest to problem, korzystając z monitor wydajności w celu przyjrzenia się licznikowi "Interfejs sieciowy\Odebrane pakiety". Po dodaniu tego licznika przyjrzyj się wartościom Average (Średnia), Minimum (Minimum) i Maximum (Maksymalna) i jeśli są one wartością wyższą niż zero, bufor odbierania musi zostać dostosowany dla karty.
Jeśli na platformie wirtualizacji VMware występuje utrata pakietów sieciowych, zobacz sekcję "Klaster zainstalowany na platformie wirtualizacji VMware".
Uaktualnianie sterowników kart interfejsu sieciowego
Ten problem może wystąpić z powodu nieaktualnych sterowników kart interfejsu sieciowego\Składniki integracji (IC)\VmTools lub wadliwych kart interfejsu sieciowego. W przypadku utraty pakietów sieciowych między węzłami na maszynach fizycznych należy zaktualizować sterownik karty sieciowej. Stare lub nieaktualne sterowniki kart sieciowych i/lub oprogramowania układowego. Czasami prosta błędna konfiguracja karty sieciowej lub przełącznika może również spowodować utratę pulsów.
Klaster zainstalowany na platformie wirtualizacji VMware
Sprawdź problemy z adapterami VMware w przypadku środowiska VMware.
Ten problem może wystąpić, jeśli pakiety są porzucane podczas dużych wzrostów ruchu. Upewnij się, że nie występuje filtrowanie ruchu (na przykład z filtrem poczty). Po wyeliminowaniu tej możliwości stopniowo zwiększ liczbę w systemie operacyjnym gościa i sprawdź.
Aby zmniejszyć liczbę spadków ruchu, wykonaj następujące kroki:
- Wybierz pozycję Start, wybierz pozycję Uruchom, wpisz
devmgmt.msc
i naciśnij Enter. - Rozwiń węzeł Karty sieciowe, kliknij prawym przyciskiem myszy pozycję vmxnet3 i wybierz polecenie Właściwości.
- Wybierz kartę Zaawansowane.
- Wybierz pozycję Małe Rx i zwiększ wartość. Wartość domyślna to 512, a wartość maksymalna to 8192.
- Wybierz pozycję Rx Ring #1 Size (Rozmiar pierścienia Rx nr 1 ) i zwiększ wartość. Wartość domyślna to 1024, a wartość maksymalna to 4096.
Zapoznaj się z następującymi artykułami, aby sprawdzić problemy z adapterami VMware w przypadku środowiska VMware:
- Węzły usuwane z członkostwa w klastrze trybu failover w programie VMware ESX?.
- Duża utrata pakietów na poziomie systemu operacyjnego gościa na VMXNET3 vNIC w ESXi
Zwróć uwagę na wszelkie przeciążenia sieci
Przeciążenie sieci może również powodować problemy z łącznością sieciową.
Sprawdź, czy sieć jest skonfigurowana zgodnie z zaleceniami firmy MS i dostawcy, zobacz Konfigurowanie sieci klastra trybu failover systemu Windows.
Sprawdzanie konfiguracji sieci
Jeśli nadal nie działa, sprawdź, czy sieć podzielona na partycje w graficznym interfejsie użytkownika klastra lub masz włączoną kartę sieciową na karcie sieciowej pulsu.
Jeśli widzisz sieć partycjonowaną w graficznym interfejsie użytkownika klastra, zobacz "Partitioned" Cluster Networks (Sieci klastra podzielone na partycje), aby rozwiązać ten problem.
Jeśli masz włączoną obsługę zespołu kart interfejsu sieciowego na karcie sieciowej pulsu, zapoznaj się z zaleceniem dostawcy tworzenia zespołu funkcji oprogramowania.
Uaktualnianie sterowników kart interfejsu sieciowego
Ten problem może wystąpić z powodu nieaktualnych sterowników kart interfejsu sieciowego lub wadliwych kart interfejsu sieciowego.
W przypadku utraty pakietów sieciowych między węzłami na maszynach fizycznych należy zaktualizować sterownik karty sieciowej. Stare lub nieaktualne sterowniki kart sieciowych i/lub oprogramowania układowego.
Czasami prosta błędna konfiguracja karty sieciowej lub przełącznika może również spowodować utratę pulsów.
Sprawdzanie konfiguracji sieci
Jeśli nadal nie działa, sprawdź, czy sieć podzielona na partycje jest widoczna w graficznym interfejsie użytkownika klastra, czy włączono tworzenie zespołu kart interfejsu sieciowego na karcie sieciowej pulsu.