Failover und Failback mit Azure Site Recovery

6 Minuten

Azure Site Recovery ermöglicht Ihrer Organisation Flexibilität, um entweder manuell ein Failover zu einer sekundären Azure-Region durchzuführen oder ein Failback zu einer Quell-VM. Diesen Vorgang können Sie am einfachsten über das Azure-Portal verwalten. Sie können sich auch für Automatisierung entscheiden, wenn Ihre Organisation Failovers automatisch auslösen möchte. Diese Optionen umfassen Vorgänge wie das Erstellen von PowerShell-Skripts oder das Einrichten von Runbooks in Azure Automation, um Failovers zu orchestrieren.

Führen Sie die folgenden Schritte durch, um ein vollständiges Failover einer geschützten VM auf eine sekundäre Region in Ihrem Abonnement ausführen. Sobald das Failover erfolgreich abgeschlossen wurde, führen Sie ein Failback für diesen virtuellen Computer durch.

In dieser Lerneinheit werden Failovers und Failbacks behandelt, und Sie erfahren, wie Sie eine VM wieder schützen können, für die ein Failover ausgeführt wurde, und wie Sie den Status des erneuten Schutzes überwachen können.

Was ist ein Failover?

Diagramm: nicht verfügbare Quellregion und neue Zielumgebung, auf die ein Failover ausgeführt wird

Ein Failover erfolgt, wenn Sie entscheiden, einen Notfallwiederherstellungsplan für Ihre Organisation durchzuführen. Die vorhandene Produktionsumgebung, die durch Site Recovery geschützt wird, wird in eine andere Region repliziert. Die Zielumgebung wird de facto zur Produktionsumgebung und ist die Umgebung, in der die Produktionsdienste Ihres Unternehmens ausgeführt werden. Sobald die Zielregion aktiv ist, sollte die Quellumgebung nicht mehr verwendet werden. Sie erzwingen diese Bedingung, indem Sie die Quell-VMs beenden.

Es gibt einen weiteren Vorteil beim Herunterfahren der Quell-VMS. Die Verwendung einer heruntergefahrenen VM führt nur zu minimalem Datenverlust, da Site Recovery wartet, bis alle Daten auf den Datenträger geschrieben wurden, bevor das Failover ausgelöst wird. Sie können diese Daten verwenden und dabei die geringstmögliche RPO erzielen, indem Sie den Wiederherstellungspunkt Letzte (niedrigste RPO) auswählen.

Screenshot: Failoveroptionen

Was ist der erneute Schutz, und warum ist dieser wichtig?

Wenn ein Failover für einen virtuellen Computer ausgeführt wurde, ist die Replikation von Site Recovery nicht mehr aktiv. Sie müssen den Schutz erneut aktivieren, um die VM zu schützen, für die ein Failover ausgeführt wurde. Da die Infrastruktur bereits in einer anderen Region vorhanden ist, können Sie die Replikation zurück in die Quellregion starten. Durch den erneuten Schutz kann Site Recovery die neue Zielumgebung erneut in die ursprüngliche Quellumgebung replizieren.

Sie können die Flexibilität, die das Ausführen eines Failovers für einzelne VMs oder mithilfe eines Wiederherstellungsplans Ihnen bietet, nutzen, um Ihre Infrastruktur, für die ein Failover ausgeführt wurde, erneut zu schützen. Sie können jede VM einzeln oder mehrere VMs mithilfe eines Wiederherstellungsplans schützen.

Die Wiederherstellung des Schutzes dauert je nach Größe und Art der VM etwa 45 Minuten bis zwei Stunden. Im Gegensatz zu den anderen Site Recovery-Prozessen, die Sie überwachen können, indem Sie den Auftragsfortschritt überwachen, müssen Sie den Status des erneuten Schutzes auf VM-Ebene anzeigen. Das liegt daran, dass die Synchronisierungsphase nicht als Site Recovery-Auftrag aufgeführt ist.

Diese Abbildung zeigt den Status des geschützten Elements. Dabei ist der Fortschritt der Synchronisierung in Prozent hervorgehoben.

Screenshot: Status der VM „patient-records“ mit hervorgehobenem Fortschritt der Synchronisierung in Prozent

Was ist ein Failback?

Ein Failback ist das Gegenteil eines Failovers. Es liegt vor, wenn ein Failover auf eine sekundäre Region abgeschlossen wurde, die jetzt die Produktionsumgebung ist. Die Wiederherstellung des Schutzes wurde für Umgebung abgeschlossen, für die ein Failover ausgeführt wurde, und die Quellumgebung ist jetzt deren Replikat. In einem Failbackszenario führt Site Recovery ein Failover auf die Quell-VMS zurück aus.

Die Durchführung eines Failbacks ist mit der eines Failovers identisch. Sie können sogar denselben Wiederherstellungsplan verwenden. Wenn Sie ein Failover aus Ihrem Wiederherstellungsplan auswählen, wird von auf die Zielregion und zu auf die Quellregion festgelegt.

Verwalten von Failovern

Site Recovery kann Failovers bei Bedarf ausführen. Testfailovers sind isoliert und wirken sich nicht auf Produktionsdienste aus. Dank dieser Flexibilität können Sie ein Failover ausführen, ohne die Benutzer*innen dieses Systems zu beeinträchtigen. Diese Flexibilität ist auch umgekehrt gegeben und ermöglicht ein bedarfsgesteuertes Failback im Rahmen eines geplanten Tests oder als Teil eines vollständig aufgerufenen Notfallwiederherstellungsvorgangs.

Die Wiederherstellungspläne in Site Recovery ermöglichen auch die Anpassung und Sequenzierung von Failovers und Failbacks. Mit den Plänen können Sie auch Computer und Workloads gruppieren.

Diese Flexibilität können Sie auch für die Auslösung des Failoverprozesses nutzen. Manuelle Failovers können problemlos über das Azure-Portal ausgeführt werden. PowerShell-Skripts oder Runbooks in Azure Automation bieten auch Automatisierungsoptionen für diesen Prozess.

Beheben von Problemen bei einem Failover

Obwohl Site Recovery automatisiert ist, können Fehler auftreten. Die folgende Liste zeigt die drei häufigsten Probleme, die beobachtet werden. Eine vollständige Liste und eine Anleitung zur Problembehandlung finden Sie im Link unter Zusammenfassung.

Probleme mit dem Azure-Ressourcenkontingent

Site Recovery muss Ressourcen in verschiedenen Regionen erstellen. Wenn das Abonnement dafür nicht geeignet ist, schlägt die Replikation fehl. Dieser Fehler tritt auch auf, wenn das Abonnement nicht über die entsprechenden Kontingentlimits zum Erstellen virtueller Computer verfügt, die mit der Größe der Quell-VMs identisch sind.

Sie können dies beheben, indem Sie sich an den Azure-Abrechnungssupport wenden und anfordern, dass die virtuellen Computer mit der richtigen Größe in der benötigten Zielregion erstellt werden.

Mindestens ein Datenträger ist für Schutz verfügbar

Dieser Fehler tritt auf, wenn die Einrichtung von Site Recovery für Ihre VMs abgeschlossen ist und Sie dabei zusätzliche Datenträger hinzugefügt oder initialisiert haben.

Sie können dieses Problem beheben, indem Sie die Replikation für die neu hinzugefügten Datenträger aktivieren. Alternativ können Sie die Warnung auch ignorieren.

Vertrauenswürdige Stammzertifikate

Überprüfen Sie, ob die neuesten Stammzertifikate installiert sind, um Site Recovery die sichere Kommunikation und Authentifizierung von VMs für die Replikation zu ermöglichen. Dieser Fehler kann angezeigt werden, wenn die neuesten Updates nicht auf Ihre virtuellen Computer angewendet wurden. Aktualisieren Sie die Windows- und Linux-VMs, damit Azure Site Recovery die Replikation aktivieren kann.

Die Korrektur unterscheidet sich für jedes Betriebssystem. Unter Windows müssen Sie nur sicherstellen, dass automatische Windows-Updates aktiviert sind und die Updates angewendet wurden. Für die einzelnen Linux-Distributionen müssen Sie die Anleitungen der Entwickler befolgen.