Partilhar via


Fiabilidade em Máquinas Virtuais

Este artigo contém informações detalhadas sobre resiliência regional de VM com zonas de disponibilidade, recuperação de desastres entre regiões e continuidade de negócios.

Suporte à zona de disponibilidade

As zonas de disponibilidade são grupos fisicamente separados de datacenters dentro de cada região do Azure. Quando uma zona falha, os serviços podem fazer failover para uma das zonas restantes.

Para obter mais informações sobre zonas de disponibilidade no Azure, consulte O que são zonas de disponibilidade?.

As máquinas virtuais dão suporte a zonas de disponibilidade com três zonas de disponibilidade por região do Azure com suporte e também são redundantes de zona e zonais. Para obter mais informações, consulte Serviços do Azure com zonas de disponibilidade. O cliente é responsável por configurar e migrar suas máquinas virtuais para disponibilidade.

Para saber mais sobre as opções de preparação da zona de disponibilidade, consulte:

Pré-requisitos

  • As SKUs da máquina virtual devem estar disponíveis nas zonas da sua região. Para analisar quais regiões oferecem suporte a zonas de disponibilidade, consulte a lista de regiões suportadas.

  • Suas SKUs de VM devem estar disponíveis nas zonas da sua região. Para verificar a disponibilidade de SKU da VM, use um dos seguintes métodos:

    • Use o PowerShell para verificar a disponibilidade de SKU da VM.
    • Use a CLI do Azure para verificar a disponibilidade de SKU da VM.
    • Vá para os serviços do Azure com suporte à zona de disponibilidade.

Melhorias no SLA

Como as zonas de disponibilidade são fisicamente separadas e fornecem fonte de alimentação, rede e resfriamento distintos, os SLAs (contratos de nível de serviço) aumentam. Para obter mais informações, veja SLA para Máquinas Virtuais.

Criar um recurso com zonas de disponibilidade ativadas

Comece criando uma máquina virtual (VM) com zona de disponibilidade habilitada nas seguintes opções de implantação abaixo:

Suporte a failover zonal

Você pode configurar máquinas virtuais para failover para outra zona usando o serviço de Recuperação de Site. Para obter mais informações, consulte Recuperação de site.

Tolerância a falhas

As máquinas virtuais podem fazer failover para outro servidor em um cluster, com o sistema operacional da VM sendo reiniciado no novo servidor. Você deve consultar o processo de failover para recuperação de desastres, reunindo máquinas virtuais no planejamento de recuperação e executando exercícios de recuperação de desastres para garantir que sua solução de tolerância a falhas seja bem-sucedida.

Para obter mais informações, consulte os processos de recuperação de site.

Experiência de zoneamento

Durante uma interrupção em toda a zona, você deve esperar uma breve degradação do desempenho até que a autorrecuperação do serviço de máquina virtual reequilibre a capacidade subjacente de se ajustar a zonas íntegras. A autorrecuperação não depende da restauração da zona; espera-se que o estado de autorrecuperação do serviço gerenciado pela Microsoft compense uma zona perdida, usando a capacidade de outras zonas.

Você também deve se preparar para a possibilidade de haver uma interrupção de toda uma região. Se houver uma interrupção do serviço para uma região inteira, as cópias localmente redundantes dos seus dados ficarão temporariamente indisponíveis. Se a replicação geográfica estiver habilitada, três outras cópias dos blobs e tabelas do Armazenamento do Azure serão armazenadas em uma região diferente. Quando há uma interrupção regional completa ou um desastre no qual a região primária não é recuperável, o Azure remapeia todas as entradas DNS para a região replicada geograficamente.

Preparação e recuperação de interrupções de zona

As diretrizes a seguir são fornecidas para máquinas virtuais do Azure durante uma interrupção de serviço de toda a região onde seu aplicativo de máquina virtual do Azure é implantado:

Design de baixa latência

Cross Region (região secundária), Cross Subscription (visualização) e Cross Zonal (visualização) são opções disponíveis a serem consideradas ao projetar uma solução de máquina virtual de baixa latência. Para obter mais informações sobre essas opções, consulte os métodos de restauração suportados.

Importante

Ao desativar a implantação com reconhecimento de zona, você renuncia à proteção contra o isolamento de falhas subjacentes. O uso de SKUs que não oferecem suporte a zonas de disponibilidade ou a exclusão da configuração da zona de disponibilidade força a dependência de recursos que não obedecem ao posicionamento e à separação da zona (incluindo dependências subjacentes desses recursos). Não se deve esperar que esses recursos sobrevivam a cenários de zone-down. As soluções que aproveitam esses recursos devem definir uma estratégia de recuperação de desastres e configurar uma recuperação da solução em outra região.

Técnicas de implementação seguras

Ao optar pelo isolamento de zonas de disponibilidade, você deve utilizar técnicas de implantação seguras para o código do aplicativo e atualizações do aplicativo. Além de configurar o Azure Site Recovery e implementar qualquer uma das seguintes técnicas de implantação segura para VMs:

Como a Microsoft executa periodicamente atualizações de manutenção planejadas, pode haver casos raros em que essas atualizações exigem uma reinicialização da máquina virtual para aplicar as atualizações necessárias à infraestrutura subjacente. Para saber mais, consulte Considerações sobre disponibilidade durante a manutenção agendada.

Antes de atualizar seu próximo conjunto de nós em outra zona, você deve executar as seguintes tarefas:

Migrar para o suporte à zona de disponibilidade

Para saber como migrar uma VM para o suporte à zona de disponibilidade, consulte Migrar máquinas virtuais e conjuntos de dimensionamento de máquinas virtuais para suporte à zona de disponibilidade.

Recuperação de desastres entre regiões e continuidade de negócios

A recuperação de desastres (DR) consiste na recuperação de eventos de alto impacto, como desastres naturais ou implantações com falha que resultam em tempo de inatividade e perda de dados. Independentemente da causa, a melhor solução para um desastre é um plano de DR bem definido e testado e um design de aplicativo que suporte ativamente a DR. Antes de começar a pensar em criar seu plano de recuperação de desastres, consulte Recomendações para projetar uma estratégia de recuperação de desastres.

Quando se trata de DR, a Microsoft usa o modelo de responsabilidade compartilhada. Em um modelo de responsabilidade compartilhada, a Microsoft garante que a infraestrutura de linha de base e os serviços da plataforma estejam disponíveis. Ao mesmo tempo, muitos serviços do Azure não replicam dados automaticamente ou recorrem de uma região com falha para replicação cruzada para outra região habilitada. Para esses serviços, você é responsável por configurar um plano de recuperação de desastres que funcione para sua carga de trabalho. A maioria dos serviços executados nas ofertas de plataforma como serviço (PaaS) do Azure fornecem recursos e orientação para dar suporte à DR e você pode usar recursos específicos do serviço para dar suporte à recuperação rápida para ajudar a desenvolver seu plano de DR.

Você pode usar a restauração entre regiões para restaurar VMs do Azure por meio de regiões emparelhadas. Com a restauração entre regiões, você pode restaurar todas as VMs do Azure para o ponto de recuperação selecionado se o backup for feito na região secundária. Para obter mais informações sobre a restauração entre regiões, consulte a entrada de linha da tabela entre regiões em nossas opções de restauração.

Recuperação de desastres em geografia de várias regiões

No caso de uma interrupção de serviço em toda a região, a Microsoft trabalha diligentemente para restaurar o serviço de máquina virtual. No entanto, você ainda precisa confiar em outras estratégias de backup específicas do aplicativo para alcançar o mais alto nível de disponibilidade. Para obter mais informações, consulte a seção sobre Estratégias de dados para recuperação de desastres.

Deteção, notificação e gerenciamento de interrupções

O hardware ou a infraestrutura física da máquina virtual pode falhar inesperadamente. Falhas inesperadas podem incluir falhas de rede local, falhas de disco local ou outras falhas no nível de rack. Quando detetada, a plataforma Azure migra automaticamente (recupera) sua máquina virtual para uma máquina física íntegra no mesmo data center. Durante o procedimento de recuperação, as máquinas virtuais sofrem um período de indisponibilidade (reinício) e, em alguns casos, a perda da unidade temporária. O SO anexado e os discos de dados são sempre preservados.

Para obter informações mais detalhadas sobre interrupções do serviço de máquina virtual, consulte as diretrizes de recuperação de desastres.

Configurar a recuperação de desastres e a deteção de interrupções

Ao configurar a recuperação de desastres para máquinas virtuais, entenda o que o Azure Site Recovery fornece. Habilite a recuperação de desastres para máquinas virtuais com os métodos abaixo:

Recuperação de desastres em geografia de uma única região

Com a configuração de recuperação de desastres, as VMs do Azure replicam continuamente para uma região de destino diferente. Se ocorrer uma interrupção, você poderá fazer failover de VMs para a região secundária e acessá-las a partir daí.

Quando você replica VMs do Azure usando o Site Recovery, todos os discos de VM são replicados continuamente para a região de destino de forma assíncrona. Os pontos de recuperação são criados a cada poucos minutos, o que concede um RPO (Recovery Point Objetive, objetivo de ponto de recuperação) na ordem dos minutos. Você pode realizar exercícios de recuperação de desastres quantas vezes quiser, sem afetar o aplicativo de produção ou a replicação contínua. Para obter mais informações, consulte Executar um drill de recuperação de desastres no Azure.

Para obter mais informações, consulte Componentes de arquitetura de VMs do Azure e emparelhamento de região.

Capacidade e resiliência proativa de recuperação de desastres

A Microsoft e seus clientes operam sob o Modelo de Responsabilidade Compartilhada. Responsabilidade compartilhada significa que, para DR (serviços de responsabilidade do cliente) habilitados para o cliente, você deve abordar a DR para qualquer serviço que eles implantem e controlem. Para garantir que a recuperação seja proativa, você deve sempre pré-implantar secundários porque não há garantia de capacidade no momento do impacto para aqueles que não foram pré-alocados.

Para implantar máquinas virtuais, você pode usar o modo de orquestração flexível em Conjuntos de Dimensionamento de Máquina Virtual. Todos os tamanhos de VM podem ser usados com o modo de orquestração flexível. O modo de orquestração flexível também oferece garantias de alta disponibilidade (até 1000 VMs) espalhando VMs entre domínios de falha dentro de uma região ou dentro de uma zona de disponibilidade.

Próximos passos