Procedimentos de manutenção de cluster de failover
Aplica-se a: Azure Stack HCI, versões 22H2 e 21H2; Windows Server 2022, Windows Server 2019, Windows Server 2016
Importante
O Azure Stack HCI agora faz parte do Azure Local. A renomeação da documentação do produto está em andamento. No entanto, as versões mais antigas do Azure Stack HCI, por exemplo 22H2, continuarão a fazer referência ao Azure Stack HCI e não refletirão a alteração de nome. Mais informações.
Este artigo pressupõe que você precisa desligar um servidor físico para executar a manutenção ou reiniciá-lo por algum outro motivo. Para instalar atualizações em um cluster HCI do Azure Stack sem colocar os servidores offline, consulte Atualizar clusters HCI do Azure Stack.
Colocar um servidor offline para manutenção requer colocar partes do armazenamento offline que são compartilhadas entre todos os servidores em um cluster de failover. Isso requer pausar o servidor que você deseja colocar offline, colocar os discos do servidor no modo de manutenção, mover funções clusterizadas e máquinas virtuais (VMs) para outros servidores no cluster e verificar se todos os dados estão disponíveis nos outros servidores do cluster. Este processo garante que os dados permanecem seguros e acessíveis durante todo o período de manutenção.
Você pode usar o Windows Admin Center ou o PowerShell para colocar um servidor offline para manutenção. Este tópico abrange ambos os métodos.
Colocar um servidor offline usando o Windows Admin Center
A maneira mais simples de se preparar para colocar um servidor offline é usando o Windows Admin Center.
Verifique se é seguro colocar o servidor offline
Usando o Windows Admin Center, conecte-se ao servidor que você deseja colocar offline. Selecione Discos de Armazenamento > no menu Ferramentas e verifique se a coluna Status de cada disco virtual mostra Online.
Em seguida, selecione Volumes de Armazenamento > e verifique se a coluna Integridade de cada volume mostra Íntegro e se a coluna Status de cada volume mostra OK.
Pausar e drenar o servidor
Antes de desligar ou reiniciar um servidor, você deve pausar o servidor e drenar (mover) todas as funções clusterizadas, como VMs em execução nele. Sempre pause e drene servidores clusterizados antes de colocá-los offline para manutenção.
Usando o Windows Admin Center, conecte-se ao cluster e selecione Servidores > de Computação no menu Ferramentas do Gerenciador de Clusters.
Selecione Inventário. Clique no nome do servidor que deseja pausar e drenar e selecione Pausar. Você verá o seguinte prompt:
Pausar servidor(es) para manutenção: Tem certeza de que deseja pausar o(s) servidor(es)? Isso move cargas de trabalho, como máquinas virtuais, para outros servidores no cluster.
Selecione sim para pausar o servidor e iniciar o processo de drenagem. O status do servidor será mostrado como Em manutenção, Drenagem e funções como Hyper-V e VMs começarão imediatamente a migrar ao vivo para outro(s) servidor(es) no cluster. A implementação pode demorar alguns minutos. Nenhuma função pode ser adicionada ao servidor até que ele seja retomado. Quando o processo de drenagem estiver concluído, o status do servidor será mostrado como Em manutenção, Dreno concluído. O sistema operacional executa uma verificação de segurança automática para garantir que é seguro prosseguir. Se houver volumes não íntegros, ele irá parar e alertá-lo de que não é seguro prosseguir.
Desligue o servidor
Uma vez que o servidor tenha concluído a drenagem, você pode desligá-lo com segurança para manutenção ou reiniciá-lo.
Aviso
Se o servidor estiver executando o Azure Stack HCI, versão 20H2, Windows Server 2019 ou Windows Server 2016, você deverá colocar os discos no modo de manutenção antes de desligar o servidor e tirar os discos do modo de manutenção antes de retomar o servidor no cluster.
Retomar o servidor
Quando estiver pronto para que o servidor comece a hospedar funções clusterizadas e VMs novamente, basta ligar o servidor, esperar que ele inicialize e retomar o servidor usando as etapas a seguir.
No Gerenciador de Clusters, selecione Servidores > de Computação no menu Ferramentas à esquerda.
Selecione Inventário. Clique no nome do servidor que deseja retomar e, em seguida, clique em Retomar.
As funções clusterizadas e as VMs começarão imediatamente a migrar ao vivo de volta para o servidor. A implementação pode demorar alguns minutos.
Aguarde até que o armazenamento ressincronize
Quando o servidor é retomado, qualquer nova gravação que tenha acontecido enquanto ele estava indisponível precisa ser ressincronizada. Isso acontece automaticamente, usando o rastreamento inteligente de alterações. Não é necessário que todos os dados sejam digitalizados ou sincronizados, apenas as alterações. Esse processo é limitado para reduzir o impacto nas cargas de trabalho de produção. Dependendo de quanto tempo o servidor foi pausado e quantos novos dados foram gravados, pode levar muitos minutos para ser concluído.
Importante
Você deve aguardar a conclusão da ressincronização antes de colocar qualquer outro servidor no cluster offline.
Para verificar se a ressincronização do armazenamento está concluída:
- Conecte-se ao cluster usando o Windows Admin Center e selecione Volumes de Armazenamento>.
- Selecione Inventário.
- Verifique a coluna Status para cada volume. Se mostrar OK, a ressincronização do armazenamento será concluída. Agora é seguro colocar outros servidores no cluster offline.
Colocar um servidor offline usando o PowerShell
Use os procedimentos a seguir para pausar, drenar e retomar corretamente um servidor em um cluster de failover usando o PowerShell.
Verifique se é seguro colocar o servidor offline
Para verificar se todos os volumes estão íntegros, execute o seguinte cmdlet como administrador:
Get-VirtualDisk
Aqui está um exemplo de como a saída pode parecer:
FriendlyName ResiliencySettingName FaultDomainRedundancy OperationalStatus HealthStatus Size FootprintOnPool StorageEfficiency
------------ --------------------- --------------------- ----------------- ------------ ---- --------------- -----------------
Mirror II Mirror 1 OK Healthy 4 TB 8.01 TB 49.99%
Mirror-accelerated parity OK Healthy 1002 GB 1.96 TB 49.98%
Mirror Mirror 1 OK Healthy 1 TB 2 TB 49.98%
ClusterPerformanceHistory Mirror 1 OK Healthy 24 GB 49 GB 48.98%
Verifique se a propriedade HealthStatus de cada volume é Íntegro e se OperationalStatus mostra OK.
Para fazer isso usando o Gerenciador de Cluster de Failover, vá para Discos de Armazenamento>.
Pausar e drenar o servidor
Execute o seguinte cmdlet como administrador para pausar e drenar o servidor:
Suspend-ClusterNode -Drain
Para fazer isso no Gerenciador de Cluster de Failover, vá para Nós, clique com o botão direito do mouse no nó e selecione Pausar>Funções de Drenagem.
Se o servidor estiver executando o Azure Stack HCI, versão 21H2 ou Windows Server 2022, pausar e drenar o servidor também colocará os discos do servidor no modo de manutenção. Se o servidor estiver executando o Azure Stack HCI, versão 20H2, Windows Server 2019 ou Windows Server 2016, você terá que fazer isso manualmente (consulte a próxima etapa).
Colocar discos no modo de manutenção
No Azure Stack HCI, versão 20H2, Windows Server 2019 e Windows Server 2016, colocar os discos do servidor no modo de manutenção dá aos Espaços de Armazenamento Diretos a oportunidade de liberar e confirmar dados para garantir que o desligamento do servidor não afete o estado do aplicativo. Assim que um disco entra no modo de manutenção, ele não permitirá mais gravações. Para minimizar os tempos de ressincronização de armazenamento, recomendamos colocar os discos no modo de manutenção antes da reinicialização e retirá-los do modo de manutenção assim que o sistema for reiniciado.
Nota
Se o servidor estiver executando o Azure Stack HCI, versão 21H2 ou Windows Server 2022, você poderá ignorar esta etapa porque os discos serão automaticamente colocados no modo de manutenção quando o servidor for pausado e drenado. Esses sistemas operacionais têm um recurso de reparo granular que torna as ressincronizações mais rápidas e menos impactantes nos recursos do sistema e da rede, tornando viável a manutenção do servidor e do armazenamento feita em conjunto.
Se o servidor estiver executando o Windows Server 2019 ou o Azure Stack HCI, versão 20H2, execute o seguinte cmdlet como administrador:
Get-StorageScaleUnit -FriendlyName "Server1" | Enable-StorageMaintenanceMode
Se o servidor estiver executando o Windows Server 2016, use a seguinte sintaxe:
Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "Server1"} | Enable-StorageMaintenanceMode
Desligue o servidor
Depois que o servidor concluir a drenagem, ele será exibido como Pausado no PowerShell e no Gerenciador de Cluster de Failover.
Agora você pode desligar o servidor com segurança ou reiniciá-lo usando os Stop-Computer
cmdlets do PowerShell Restart-Computer
ou o Gerenciador de Cluster de Failover.
Nota
Ao executar um Get-VirtualDisk
comando em servidores que estão desligando ou iniciando/interrompendo o serviço de cluster, o Status Operacional do servidor pode ser relatado como incompleto ou degradado e a coluna Status de Integridade pode listar um aviso. Isto é normal e não deve causar preocupação. Todos os seus volumes permanecem online e acessíveis.
Retirar os discos do modo de manutenção
Se o servidor estiver executando o Azure Stack HCI, versão 20H2, Windows Server 2019 ou Windows Server 2016, você deverá desabilitar o modo de manutenção de armazenamento nos discos antes de retomar o servidor no cluster. Para minimizar os tempos de ressincronização de armazenamento, recomendamos tirá-los do modo de manutenção assim que o sistema for reiniciado.
Nota
Se o servidor estiver executando o Azure Stack HCI, versão 21H2 ou Windows Server 2022, você poderá ignorar esta etapa porque os discos serão automaticamente retirados do modo de manutenção quando o servidor for retomado.
Se o servidor estiver executando o Windows Server 2019 ou o Azure Stack HCI, versão 20H2, execute o seguinte cmdlet como administrador para desabilitar o modo de manutenção de armazenamento:
Get-StorageScaleUnit -FriendlyName "Server1" | Disable-StorageMaintenanceMode
Se o servidor estiver executando o Windows Server 2016, use a seguinte sintaxe:
Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "Server1"} | Disable-StorageMaintenanceMode
Retomar o servidor
Retome o servidor no cluster. Para retornar as funções clusterizadas e as VMs que estavam sendo executadas anteriormente no servidor, use o sinalizador opcional -Failback :
Resume-ClusterNode –Failback Immediate
Para fazer isso no Gerenciador de Cluster de Failover, vá para Nós, clique com o botão direito do mouse no nó e selecione Retomar>Funções de Falha de Volta.
Depois que o servidor for retomado, ele será exibido como Ativo no PowerShell e no Gerenciador de Cluster de Failover.
Aguarde até que o armazenamento ressincronize
Quando o servidor for retomado, você deverá aguardar a conclusão da ressincronização antes de colocar quaisquer outros servidores no cluster offline.
Execute o seguinte cmdlet como administrador para monitorar o progresso:
Get-StorageJob
Se a ressincronização já tiver sido concluída, você não obterá nenhuma saída.
Aqui está um exemplo de saída mostrando trabalhos de ressincronização (reparo) ainda em execução:
Name IsBackgroundTask ElapsedTime JobState PercentComplete BytesProcessed BytesTotal
---- ---------------- ----------- -------- --------------- -------------- ----------
Repair True 00:06:23 Running 65 11477975040 17448304640
Repair True 00:06:40 Running 66 15987900416 23890755584
Repair True 00:06:52 Running 68 20104802841 22104819713
A coluna BytesTotal mostra quanto armazenamento precisa ser ressincronizado. A coluna PercentComplete exibe o progresso.
Aviso
Não é seguro colocar outro servidor offline até que esses trabalhos de reparo terminem.
Durante esse tempo, em HealthStatus, seus volumes continuarão a aparecer como Aviso, o que é normal.
Por exemplo, se você usar o cmdlet enquanto o Get-VirtualDisk
armazenamento estiver sincronizando novamente, poderá ver a seguinte saída:
FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach Size
------------ --------------------- ----------------- ------------ -------------- ----
MyVolume1 Mirror InService Warning True 1 TB
MyVolume2 Mirror InService Warning True 1 TB
MyVolume3 Mirror InService Warning True 1 TB
Após a conclusão dos trabalhos, verifique se os volumes mostram Íntegro novamente usando o Get-VirtualDisk
cmdlet. Aqui estão alguns exemplos de saída:
FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach Size
------------ --------------------- ----------------- ------------ -------------- ----
MyVolume1 Mirror OK Healthy True 1 TB
MyVolume2 Mirror OK Healthy True 1 TB
MyVolume3 Mirror OK Healthy True 1 TB
Agora é seguro pausar e reiniciar outros servidores no cluster.
Próximos passos
Para obter informações relacionadas, consulte também: