Udostępnij za pośrednictwem


Rozwiązywanie problemów z klastrem z identyfikatorem zdarzenia 1135

Ten artykuł pomaga zdiagnozować i rozpoznać identyfikator zdarzenia 1135, który może być rejestrowany podczas uruchamiania usługi klastra w środowisku klastra trybu failover.

Dotyczy: Windows Server 2022, Windows Server 2019, Windows Server 2016, Azure Stack HCI, wersje 21H2 i 20H2

Wypróbuj naszego agenta wirtualnego — może pomóc w szybkim zidentyfikowaniu i rozwiązaniu typowych problemów z replikacją usługi Active Directory.

Strona początkowa

Identyfikator zdarzenia 1135 wskazuje, że co najmniej jeden węzeł klastra został usunięty z aktywnego członkostwa w klastrze trybu failover. Mogą towarzyszyć mu następujące objawy:

Walidacja i testy sieciowe byłyby zalecane jako jeden z początkowych kroków rozwiązywania problemów, aby upewnić się, że nie ma problemów z konfiguracją, które mogą być przyczyną problemów.

Usługa klastrowania jest podstawowym składnikiem oprogramowania, który kontroluje wszystkie aspekty operacji klastra trybu failover i zarządza bazą danych konfiguracji klastra. Jeśli widzisz zdarzenie o identyfikatorze 1135, zalecamy zainstalowanie poprawek wymienionych w poniższych artykułach i ponowne uruchomienie wszystkich węzłów klastra, a następnie sprawdzenie, czy problem występuje ponownie.

Sprawdź, czy usługa klastra działa na wszystkich węzłach

Postępuj zgodnie z poniższym poleceniem zgodnie z systemem operacyjnym Windows, aby sprawdzić, czy usługa klastra jest stale uruchomiona i dostępna.

W przypadku klastra systemu Windows Server 2008 R2

W wierszu polecenia z podwyższonym poziomem uprawnień uruchom polecenie cluster.exe node /stat.

W przypadku klastrów systemu Windows Server 2012 i Windows Server 2012 R2

Uruchom następujące polecenie cmdlet programu PowerShell: Get-ClusterResource

Czy usługa klastrowania jest stale uruchomiona i dostępna we wszystkich węzłach?

Kilka scenariuszy zdarzenia o identyfikatorze 1135

Chcemy przyjrzeć się bliżej dziennikom zdarzeń systemowych we wszystkich węzłach klastra. Przejrzyj zdarzenie o identyfikatorze 1135, które widzisz w węzłach, i skopiuj wszystkie wystąpienia tego zdarzenia. Ułatwi to zapoznanie się z nimi i przejrzenie.

Event ID 1135
Cluster node ' **NODE A** ' was removed from the active failover cluster membership. The Cluster service on this node may have stopped. 
This could also be due to the node having lost communication with other active nodes in the failover cluster. 
Run the Validate a Configuration wizard to check your network configuration. 
If the condition persists, check for hardware or software errors related to the network adapters on this node. 
Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.

Istnieją trzy typowe scenariusze:

Scenariusz A

Patrzysz na wszystkie zdarzenia i wszystkie węzły w klastrze wskazują, że węzeł A stracił komunikację.

Diagram przedstawiający pomyślne komunikowanie się węzłów A, Node B i Node C.

Diagram pokazujący, że węzeł A stracił komunikację z węzłami B i Node C.

Może się okazać, że w przypadku wyświetlania dzienników systemowych w węźle A są wyświetlane zdarzenia dla wszystkich pozostałych węzłów w klastrze.

Rozwiązanie

Sugeruje to, że w momencie wystąpienia problemu z powodu przeciążenia sieci lub w przeciwnym razie komunikacja z węzłem A została utracona.

Należy przejrzeć i zweryfikować problemy z konfiguracją sieci i komunikacją. Pamiętaj, aby wyszukać problemy dotyczące węzła A.

Scenariusz B

Patrzysz na zdarzenia w węzłach i załóżmy, że klaster jest rozproszony w dwóch lokacjach. NODE A, NODE B i NODE C w lokacji 1 i NODE D & NODE E w lokacji 2.

Diagram pokazujący, że witryna 1 komunikuje się pomyślnie z lokacją 2 za pośrednictwem łącza sieci WAN.

W węzłach A,B i C widać, że zarejestrowane zdarzenia są przeznaczone do łączności z węzłami D i E. Podobnie po wyświetleniu zdarzeń w węzłach D i E zdarzenia sugerują, że utracono komunikację z usługami A, B i C.

Diagram pokazujący, że lokacja 1 utraciła połączenie usługi WAN Link z lokacją 2.

Rozwiązanie

Jeśli widzisz podobne działanie, oznacza to, że wystąpił błąd komunikacji za pośrednictwem linku łączącego te witryny. Zalecamy przejrzenie połączenia między lokacjami, jeśli odbywa się to za pośrednictwem połączenia sieci WAN, zalecamy zweryfikowanie z usługodawcą internetowym o łączności.

Scenariusz C

Patrzysz na zdarzenia w węzłach i widzisz, że nazwy węzłów nie są uwzględniane w żadnym konkretnym wzorcu. Załóżmy, że klaster jest rozproszony w dwóch lokacjach. NODE A, NODE B i NODE C w lokacji 1 i NODE D & NODE E w lokacji 2.

  • W węźle A: są widoczne zdarzenia dla węzłów B, D, E.
  • W węźle B: są widoczne zdarzenia dla węzłów C, D, E.
  • W węźle C: są widoczne zdarzenia dla węzłów A, B, E.
  • W węźle D: są widoczne zdarzenia dla węzłów A, C, E.
  • W węźle E: są widoczne zdarzenia dla węzłów B, C, D.
  • Lub inne kombinacje.

Diagram scenariusza C pokazujący, że klaster jest rozproszony w dwóch lokacjach.

Rozwiązanie

Takie zdarzenia są możliwe, gdy kanały sieciowe między węzłami są zadławione, a komunikaty komunikacyjne klastra nie docierają w odpowiednim czasie, co sprawia, że klaster czuje, że komunikacja między węzłami zostanie utracona, co spowoduje usunięcie węzłów z członkostwa w klastrze.

Przeglądanie sieci klastrów

Zalecamy przejrzenie sieci klastrów przez sprawdzenie następujących trzech opcji po jednym, aby kontynuować ten przewodnik rozwiązywania problemów.

Sprawdzanie wykluczenia programu antywirusowego

Wyklucz następujące lokalizacje systemu plików ze skanowania antywirusowego na serwerze z uruchomionymi usługami klastra:

  • Ścieżka monitora udziałów plików
  • Folder %Systemroot%\Cluster

Skonfiguruj składnik skanowania w czasie rzeczywistym w oprogramowaniu antywirusowym, aby wykluczyć następujące katalogi i pliki:

  • Domyślny katalog konfiguracji maszyny wirtualnej (C:\ProgramData\Microsoft\Windows\Hyper-V)

  • Niestandardowe katalogi konfiguracji maszyny wirtualnej

  • Domyślny katalog wirtualnego dysku twardego (C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)

  • Niestandardowe katalogi wirtualnych dysków twardych

  • Niestandardowe katalogi danych replikacji, jeśli używasz repliki funkcji Hyper-V

  • Katalogi migawek

  • mms.exe

    Uwaga 16.

    Ten plik może być skonfigurowany jako wykluczenie procesu w oprogramowaniu antywirusowym.

  • Vmwp.exe

    Uwaga 16.

    Ten plik może być skonfigurowany jako wykluczenie procesu w oprogramowaniu antywirusowym.

Ponadto w przypadku korzystania z migracji na żywo wraz z udostępnionymi woluminami klastra wyklucz ścieżkę CSV C:\Clusterstorage i wszystkie jego podkatalogi. Jeśli rozwiązujesz problemy z trybem failover lub występują ogólne problemy z zainstalowanym oprogramowaniem antywirusowym i usługami klastra, tymczasowo odinstaluj oprogramowanie antywirusowe lub sprawdź, czy oprogramowanie antywirusowe współpracuje z usługami klastra. W większości przypadków wyłączenie oprogramowania antywirusowego jest niewystarczające. Nawet jeśli wyłączysz oprogramowanie antywirusowe, sterownik filtru jest nadal ładowany po ponownym uruchomieniu komputera.

Sprawdzanie konfiguracji portu sieciowego w zaporze

Usługa klastrowania steruje działaniami klastrów serwera i zarządza bazą danych klastrów. Klaster to zbiór niezależnych komputerów, które działają jak jeden komputer. Menedżerowie, programiści i użytkownicy widzą klaster jako pojedynczy system. Oprogramowanie rozpowszechnia dane między węzły klastrów. Jeśli węzeł ulegnie awarii, inne węzły dostarczają usługi i dane, które wcześniej były udostępniane przez brakujący węzeł. Gdy węzeł zostanie dodany lub naprawiony, oprogramowanie klastra migruje do tego węzła część danych.

Nazwa usługi systemu: ClusSvc

Aplikacja Protokół Porty
Usługa klastrowania UDP 3343
Usługa klastrowania TCP 3343 (Ten port jest wymagany podczas operacji sprzężenia węzła).
Zdalne wywołanie procedury TCP 135
Administrator klastra UDP 137
Kerberos UDP/TCP 464*
SMB TCP 445
Losowo przydzielone wysokie porty UDP** UDP Losowy numer portu z zakresu od 1024 do 65535
Losowy numer portu z zakresu od 49152 do 65535***

Uwaga 16.

Ponadto w przypadku pomyślnej weryfikacji w klastrach trybu failover systemu Windows w systemie Windows Server 2008 lub nowszym zezwalaj na ruch przychodzący i wychodzący dla protokołu ICMP4, ICMP6.

Jest to zakres systemów Windows Server 2012, Windows 8, Windows Server 2008 R2, Windows 7, Windows Server 2008 i Windows Vista.

Poza tym uruchom następujące polecenie, aby sprawdzić konfigurację portu sieciowego w zaporze. Na przykład: To polecenie pomaga określić port 3343 dostępny\open używany dla klastra trybu failover:

netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose

Uruchom raport weryfikacji klastra pod kątem błędów lub ostrzeżeń

Narzędzie do sprawdzania poprawności klastra uruchamia zestaw testów, aby sprawdzić, czy sprzęt i ustawienia są zgodne z klastrem trybu failover.

Postępuj zgodnie z poniższymi instrukcjami:

  1. Uruchom raport weryfikacji klastra pod kątem błędów lub ostrzeżeń. Aby uzyskać więcej informacji, zobacz Understanding Cluster Validation Tests: Network (Omówienie testów weryfikacji klastra: sieć)

    Zrzut ekranu przedstawiający wyniki po uruchomieniu raportu weryfikacji klastra pod kątem błędów lub ostrzeżeń.

  2. Sprawdź, czy występują ostrzeżenia i błędy dla sieci. Aby uzyskać więcej informacji, zobacz Opis testów weryfikacji klastra: sieć.

    Zrzut ekranu przedstawiający wyniki według kategorii.

    Zrzut ekranu przedstawiający weryfikowanie konfiguracji zapory systemu Windows w obszarze Sieć.

Sprawdź kolejność powiązań sieciowych listy

Ten test zawiera listę kolejności, w jakiej sieci są powiązane z kartami w każdym węźle.

Karta Karty i powiązania zawiera listę połączeń w kolejności, w której połączenia są dostępne przez usługi sieciowe. Kolejność tych połączeń odzwierciedla kolejność, w jakiej ogólne wywołania TCP/IP/pakiety są wysyłane do przewodu.

Wykonaj poniższe kroki, aby zmienić kolejność powiązań kart sieciowych:

  1. Wybierz pozycję Start, wybierz pozycję Uruchom, wpisz ncpa.cpl, a następnie wybierz przycisk OK. Dostępne połączenia można wyświetlić w sekcji SIEĆ LAN i Szybki Internet w oknie Połączenia sieciowe .
  2. W menu Zaawansowane wybierz pozycję Ustawienia zaawansowane, a następnie wybierz kartę Adaptery i powiązania.
  3. W obszarze Połączenia wybierz połączenie, które chcesz przenieść wyżej na liście. Użyj przycisków strzałek, aby przenieść połączenie. Ogólnie rzecz biorąc, karta, która komunikuje się z siecią (łączność z domeną, routing do innych sieci itp., powinna być pierwszą kartą powiązaną (górną część listy).

Węzły klastra to systemy wieloaduszowe. Priorytet sieci wpływa na klienta DNS dla wychodzącej łączności sieciowej. Karty sieciowe używane do komunikacji klienta powinny znajdować się u góry w kolejności powiązania. Sieci inne niż trasy można umieścić w niższym priorytecie. W systemach Windows Server 2012 i Windows Server 2012 R2 karta sterownik sieci klastra (NETFT.SYS) jest automatycznie umieszczana w dolnej części listy kolejności powiązań.

Sprawdzanie poprawności komunikacji sieciowej

Opóźnienie w sieci może również spowodować wystąpienie tego problemu. Pakiety mogą nie zostać utracone między węzłami, ale mogą nie być wystarczająco szybko do węzłów przed upływem limitu czasu.

Ten test sprawdza, czy przetestowane serwery mogą komunikować się z dopuszczalnym opóźnieniem we wszystkich sieciach.

Na przykład: W obszarze Weryfikowanie komunikacji sieciowej mogą zostać wyświetlone następujące komunikaty dotyczące problemów z opóźnieniami sieci:

Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).
Either address 10.0.0.96 is not reachable from 192.168.0.2 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networks
Either address 192.168.0.2 is not reachable from 10.0.0.96 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks

W przypadku klastra z wieloma lokacjami można zwiększyć limit czasu. Aby uzyskać więcej informacji, zobacz Configure Heartbeat and DNS Settings in a Multi-Site Failover Cluster (Konfigurowanie ustawień pulsu i DNS w klastrze trybu failover z wieloma lokacjami).

Zapoznaj się z usługodawcą internetowym, aby uzyskać informacje o problemach z łącznością sieci WAN.

Sprawdź, czy wystąpią jakiekolwiek z następujących problemów.

Pakiety sieciowe utracone między węzłami
  1. Sprawdzanie utraty pakietów przy użyciu wydajności

    Jeśli pakiet zostanie utracony w przewodzie gdzieś między węzłami, puls zakończy się niepowodzeniem. Możemy łatwo sprawdzić, czy jest to problem, korzystając z monitor wydajności w celu przyjrzenia się licznikowi "Interfejs sieciowy\Odebrane pakiety". Po dodaniu tego licznika przyjrzyj się wartościom Average (Średnia), Minimum (Minimum) i Maximum (Maksymalna) i jeśli są one wartością wyższą niż zero, bufor odbierania musi zostać dostosowany dla karty.

    Zrzut ekranu przedstawiający okno Dodawanie liczników.

    Jeśli na platformie wirtualizacji VMware występuje utrata pakietów sieciowych, zobacz sekcję "Klaster zainstalowany na platformie wirtualizacji VMware".

  2. Uaktualnianie sterowników kart interfejsu sieciowego

    Ten problem może wystąpić z powodu nieaktualnych sterowników kart interfejsu sieciowego\Składniki integracji (IC)\VmTools lub wadliwych kart interfejsu sieciowego. W przypadku utraty pakietów sieciowych między węzłami na maszynach fizycznych należy zaktualizować sterownik karty sieciowej. Stare lub nieaktualne sterowniki kart sieciowych i/lub oprogramowania układowego. Czasami prosta błędna konfiguracja karty sieciowej lub przełącznika może również spowodować utratę pulsów.

Klaster zainstalowany na platformie wirtualizacji VMware

Sprawdź problemy z adapterami VMware w przypadku środowiska VMware.

Ten problem może wystąpić, jeśli pakiety są porzucane podczas dużych wzrostów ruchu. Upewnij się, że nie występuje filtrowanie ruchu (na przykład z filtrem poczty). Po wyeliminowaniu tej możliwości stopniowo zwiększ liczbę w systemie operacyjnym gościa i sprawdź.

Aby zmniejszyć liczbę spadków ruchu, wykonaj następujące kroki:

  1. Wybierz pozycję Start, wybierz pozycję Uruchom, wpisz devmgmt.msc i naciśnij Enter.
  2. Rozwiń węzeł Karty sieciowe, kliknij prawym przyciskiem myszy pozycję vmxnet3 i wybierz polecenie Właściwości.
  3. Wybierz kartę Zaawansowane.
  4. Wybierz pozycję Małe Rx i zwiększ wartość. Wartość domyślna to 512, a wartość maksymalna to 8192.
  5. Wybierz pozycję Rx Ring #1 Size (Rozmiar pierścienia Rx nr 1 ) i zwiększ wartość. Wartość domyślna to 1024, a wartość maksymalna to 4096.

Zapoznaj się z następującymi artykułami, aby sprawdzić problemy z adapterami VMware w przypadku środowiska VMware:

Zwróć uwagę na wszelkie przeciążenia sieci

Przeciążenie sieci może również powodować problemy z łącznością sieciową.

Sprawdź, czy sieć jest skonfigurowana zgodnie z zaleceniami firmy MS i dostawcy, zobacz Konfigurowanie sieci klastra trybu failover systemu Windows.

Sprawdzanie konfiguracji sieci

Jeśli nadal nie działa, sprawdź, czy sieć podzielona na partycje w graficznym interfejsie użytkownika klastra lub masz włączoną kartę sieciową na karcie sieciowej pulsu.

Jeśli widzisz sieć partycjonowaną w graficznym interfejsie użytkownika klastra, zobacz "Partitioned" Cluster Networks (Sieci klastra podzielone na partycje), aby rozwiązać ten problem.

Jeśli masz włączoną obsługę zespołu kart interfejsu sieciowego na karcie sieciowej pulsu, zapoznaj się z zaleceniem dostawcy tworzenia zespołu funkcji oprogramowania.

Uaktualnianie sterowników kart interfejsu sieciowego

Ten problem może wystąpić z powodu nieaktualnych sterowników kart interfejsu sieciowego lub wadliwych kart interfejsu sieciowego.

W przypadku utraty pakietów sieciowych między węzłami na maszynach fizycznych należy zaktualizować sterownik karty sieciowej. Stare lub nieaktualne sterowniki kart sieciowych i/lub oprogramowania układowego.

Czasami prosta błędna konfiguracja karty sieciowej lub przełącznika może również spowodować utratę pulsów.

Sprawdzanie konfiguracji sieci

Jeśli nadal nie działa, sprawdź, czy sieć podzielona na partycje jest widoczna w graficznym interfejsie użytkownika klastra, czy włączono tworzenie zespołu kart interfejsu sieciowego na karcie sieciowej pulsu.