Compartilhar via


Resiliência de dados do Exchange Online

O Exchange não só é um dos serviços online mais utilizados pela Microsoft, como também serve como armazenamento de dados a longo prazo para muitos outros serviços do Microsoft 365, como o Teams. Por este motivo, o Exchange é fortemente arquitetado para garantir uma elevada resiliência em termos de integridade e disponibilidade de dados face a interrupções imprevistas.

Resiliência operacional

Grupos de Disponibilidade da Base de Dados

Todas as bases de dados de caixas de correio no Microsoft 365 estão alojadas num grupo de disponibilidade de bases de dados (DAG) e replicadas para datacenters geograficamente separados na mesma região. A configuração mais comum são quatro cópias de base de dados em quatro datacenters; No entanto, algumas regiões têm menos datacenters (as bases de dados são replicadas para três datacenters na Índia e dois datacenters na Austrália e no Japão). No entanto, em todos os casos, todas as bases de dados de caixas de correio têm quatro cópias distribuídas por vários datacenters, garantindo assim que os dados da caixa de correio estão protegidos contra falhas de software, hardware e até mesmo datacenter.

Destas quatro cópias, três são configuradas como altamente disponíveis. A quarta cópia é configurada como uma cópia da base de dados com atraso. A cópia da base de dados com atraso não se destina à recuperação individual da caixa de correio ou à recuperação de itens de caixa de correio. O seu objetivo é fornecer um mecanismo de recuperação para o raro evento de danos lógicos catastróficos em todo o sistema.

As cópias da base de dados com atraso no Exchange Online são configuradas com um tempo de atraso de repetição do ficheiro de registo de sete dias. Além disso, o Gestor de Atrasos de Repetição do Exchange está ativado para fornecer a reprodução de ficheiros de registo dinâmicos para cópias atrasadas para permitir cópias da base de dados atrasadas para reparação automática e gerir o crescimento do ficheiro de registo. Embora as cópias da base de dados com atraso sejam utilizadas no Exchange Online, é importante compreender que não são uma cópia de segurança para um ponto anterior no tempo garantida. As cópias da base de dados atrasadas no Exchange Online têm um limiar de disponibilidade, normalmente cerca de 90%, devido a períodos em que o disco que contém uma cópia atrasada é perdido devido a uma falha no disco, a cópia atrasada torna-se uma cópia de elevada disponibilidade (devido à reprodução automática) e aos períodos em que a cópia da base de dados atrasada está a reconstruir a fila de repetição de registos.

Resiliência do Transporte

O Exchange Online inclui duas funcionalidades principais de resiliência de transporte: Redundância Sombra e Rede de Segurança. A Redundância Sombra mantém uma cópia redundante de uma mensagem enquanto está em trânsito. A Rede de Segurança mantém uma cópia redundante de uma mensagem após a mensagem ser entregue com êxito.

Com a Redundância Sombra, cada servidor de transporte do Exchange Online efetua uma cópia de cada mensagem que recebe antes de reconhecer que recebeu a mensagem com êxito para o servidor de envio. Isto torna todas as mensagens no pipeline de transporte redundantes enquanto estão em trânsito. Se o Exchange Online determinar que a mensagem original foi perdida em trânsito, será redefinida uma cópia redundante da mensagem.

A Rede de Segurança é uma fila de transporte associada ao serviço Transporte num servidor de Caixa de Correio. Esta fila armazena cópias de mensagens que foram processadas com êxito pelo servidor. Quando uma base de dados de caixa de correio ou falha do servidor requer a ativação de uma cópia desatualizada da base de dados da caixa de correio, as mensagens na fila da Rede de Segurança são automaticamente submetidas para a nova cópia ativa da base de dados da caixa de correio. A Rede de Segurança também é redundante, eliminando assim o transporte como um ponto único de falha. Utiliza o conceito de Uma Rede de Segurança Primária e uma Rede de Segurança Sombra em que, se a Rede de Segurança Primária estiver indisponível durante mais de 12 horas, submeter novamente pedidos torna-se pedidos de submetê-lo sombra e as mensagens são redeviados da Rede de Segurança Sombra.

As resubmissões de mensagens da Safety Net são iniciadas automaticamente pelo componente Active Manager do serviço Replicação do Microsoft Exchange que gere os DAGs e as cópias da base de dados da caixa de correio. Não são necessárias ações manuais para submeter novamente mensagens da Rede de Segurança.

Prevenção e correção de danos

Uma In-Place Hold preserva todo o conteúdo da caixa de correio, incluindo itens eliminados e versões originais de itens modificados. Todos os itens da caixa de correio são retornados em uma pesquisa de Descoberta eletrônica In-loco. Quando coloca um In-Place Manter na caixa de correio de um utilizador, os conteúdos na caixa de correio de arquivo correspondente (se estiver ativado) também são colocados em espera e devolvidos numa pesquisa de Deteção de Dados Eletrónicos.

Existem dois tipos de danos que podem afetar uma base de dados do Exchange: danos físicos, que normalmente são causados por problemas de hardware (em particular, hardware de armazenamento) e danos lógicos, que ocorrem devido a outros fatores. Geralmente, existem dois tipos de danos lógicos que podem ocorrer numa base de dados do Exchange:

  • Danos lógicos na base de dados – a soma de verificação da página da base de dados corresponde, mas os dados na página estão errados logicamente. Isto pode ocorrer quando o motor de base de dados (o Motor de Armazenamento Extensível (ESE)) tenta escrever uma página de base de dados e, apesar de o sistema operativo devolver uma mensagem de êxito, os dados nunca são escritos no disco ou são escritos no local errado. Isso é conhecido como liberação perdida. O ESE inclui inúmeras funcionalidades e salvaguardas concebidas para evitar danos físicos numa base de dados e noutros cenários de perda de dados. Para impedir que as descargas perdidas percam dados, o ESE inclui um mecanismo de deteção da descarga de cache perdido na base de dados, juntamente com uma funcionalidade (restauro de página única) para corrigi-la.
  • Armazenar danos lógicos – os dados são adicionados, eliminados ou manipulados de uma forma que o utilizador não espera. Estes casos são causados por aplicações de terceiros. Normalmente, é corrupção no sentido em que o utilizador a vê como corrupção. O repositório do Exchange considera a transação que produziu o dano lógico uma série de operações MAPI válidas. As funcionalidades de Suspensão No Local no Exchange Online fornecem proteção contra danos lógicos armazenados (porque impede que os conteúdos sejam eliminados permanentemente por um utilizador ou uma aplicação).

O Exchange Online efetua várias verificações de consistência em ficheiros de registo replicados durante a inspeção de registos e a repetição de registos. Estas verificações de consistência impedem que os danos físicos sejam replicados pelo sistema. Por exemplo, durante a inspeção de registo, existe uma verificação de integridade física que verifica o ficheiro de registo e valida se a soma de verificação registada no ficheiro de registo corresponde à soma de verificação gerada na memória. Além disso, o cabeçalho do ficheiro de registo é examinado para garantir que a assinatura do ficheiro de registo registada no cabeçalho de registo corresponde à do ficheiro de registo. Durante a repetição do registo, o ficheiro de registo é submetido a um escrutínio mais aprofundado. Por exemplo, o cabeçalho da base de dados também contém a assinatura de registo que é comparada com a assinatura do ficheiro de registo para garantir que correspondem.

A proteção contra danos em dados de caixa de correio no Exchange Online é obtida com a Proteção de Dados Nativos do Exchange, uma estratégia de resiliência que tira partido da replicação ao nível da aplicação em vários servidores e vários datacenters, juntamente com outras funcionalidades que ajudam a proteger os dados de se perderem devido a danos ou outros motivos. Estas funcionalidades incluem funcionalidades nativas geridas pela Microsoft ou pela própria aplicação do Exchange Online, tais como:

  • Grupos de Disponibilidade de Dados
  • Correção de Bit Único
  • Análise de Bases de Dados Online
  • Deteção da Descarga Perdida
  • Restauro de Página Única
  • Serviço de Replicação de Caixa de Correio
  • Verificações de Ficheiros de Registo
  • Implementação no Sistema de Ficheiros Resiliente

Para obter mais informações sobre as funcionalidades nativas listadas anteriormente, selecione as hiperligações e veja o seguinte para obter informações adicionais e para obter detalhes sobre itens sem hiperligações. Além destas funcionalidades nativas, o Exchange Online também inclui funcionalidades de resiliência de dados que os clientes podem gerir, tais como:

Correção de Bit Único

O ESE inclui um mecanismo para detetar e resolver erros de CRC de bit único (também conhecidos como lançamentos de bit único) que são o resultado de erros de hardware (e, como tal, representam danos físicos). Quando estes erros ocorrem, o ESE corrige-os automaticamente e regista um evento no registo de eventos.

Análise de Bases de Dados Online

A análise de bases de dados online (também conhecida como soma de verificação da base de dados) é o processo em que um ESE utiliza um verificador de consistência da base de dados para ler cada página e verificar se existem danos na página. O principal objetivo é detetar danos físicos e descargas perdidas que podem não estar a ser detetadas pelas operações transacionais. A análise de bases de dados também efetua operações de falha pós-arquivo. Pode perder espaço devido a falhas e a análise de bases de dados online localiza e recupera espaço perdido. O sistema foi concebido com a expectativa de que todas as bases de dados são totalmente analisadas uma vez a cada sete dias.

Deteção da Descarga Perdida

Uma remoção da cache perdida ocorre quando uma operação de escrita da base de dados que o subsistema/sistema operativo do disco devolveu como concluído não foi escrita no disco ou foi escrita na localização errada. Os incidentes de descarregamento perdidos podem resultar em danos lógicos na base de dados, pelo que, para evitar que as descargas perdidas resultem em dados perdidos, o ESE inclui um mecanismo de deteção de descarregamento perdido. À medida que as páginas da base de dados são escritas em cópias passivas, é efetuada uma verificação das descargas perdidas na cópia ativa. Se for detetada uma descarga de cache perdida, o ESE pode reparar o processo com um processo de aplicação de patches de página.

Restauro de Página Única

O restauro de página única, também conhecido como aplicação de patches de página, é um processo automático em que as páginas da base de dados danificadas são substituídas por cópias em bom estado de funcionamento de uma réplica em bom estado de funcionamento. O processo de reparação de uma página danificada depende se a cópia da base de dados está ativa ou passiva. Quando uma cópia de base de dados ativa encontra uma página danificada, pode copiar uma página de uma das respetivas réplicas, desde que a página que copia esteja atualizada. Este processo é realizado ao colocar um pedido para a página no fluxo de registos, que é a base da replicação da base de dados da caixa de correio. Assim que uma réplica encontra o pedido de página, responde enviando uma cópia da página para a cópia da base de dados que pede. O restauro de página única também fornece um mecanismo de comunicação assíncrono para os ativos solicitarem uma página a partir de réplicas, mesmo que as réplicas estejam atualmente offline.

Se houver danos numa cópia passiva da base de dados, incluindo uma cópia da base de dados com atraso, uma vez que estas cópias estão sempre por trás da respetiva cópia ativa, é sempre seguro copiar qualquer página da cópia ativa para uma cópia passiva. Uma cópia passiva da base de dados é por natureza altamente disponível, pelo que, durante o processo de aplicação de patches da página, a repetição de registos é suspensa, mas a cópia de registos continua. A cópia passiva da base de dados obtém uma cópia da página danificada da cópia ativa, aguarda até que o ficheiro de registo que cumpra o requisito máximo de geração de registos necessário seja copiado e inspecionado e, em seguida, corrija a página danificada. Depois de a página ter sido corrigida, a repetição de registos é retomada. O processo é o mesmo para a cópia da base de dados com atraso, exceto que a base de dados com atraso repete primeiro todos os ficheiros de registo necessários para obter um estado a corrigir.

Serviço de Replicação de Caixa de Correio

Mover caixas de correio é uma parte fundamental da gestão de um serviço de e-mail em grande escala. Existem sempre tecnologias atualizadas e atualizações de hardware e versões para lidar, pelo que ter um sistema robusto e limitado que permite aos nossos engenheiros realizar este trabalho, mantendo a caixa de correio transparente para os utilizadores (certificando-se de que permanecem online durante todo o processo) é fundamental e certificando-se de que o processo aumenta verticalmente corretamente à medida que as caixas de correio ficam cada vez maiores.

O Serviço de Replicação de Caixa de Correio do Exchange (MRS) é responsável por mover caixas de correio entre bases de dados. Durante a movimentação, a MRS efetua uma verificação de consistência em todos os itens na caixa de correio. Se for encontrado um problema de consistência, a MRS corrigirá o problema ou ignorará os itens danificados, removendo assim os danos da caixa de correio.

Uma vez que a MRS é um componente do Exchange Online, podemos efetuar alterações no respetivo código para abordar novas formas de corrupção detetadas no futuro. Por exemplo, se detetarmos um problema de consistência que a MRS não consegue corrigir, podemos analisar os danos, alterar o código MRS e corrigir a inconsistência (se entendermos como fazê-lo).

Verificações de Ficheiros de Registo

Todos os ficheiros de registo de transações gerados por uma base de dados do Exchange são submetidos a várias formas de verificações de consistência. Quando um ficheiro de registo é criado, a primeira coisa a fazer é que um padrão de bits é escrito e, em seguida, é executada uma série de escritas de registo. Esta estrutura permite que o Exchange Online execute uma série de verificações (descarregamento perdido, CRC e outras verificações) para validar cada ficheiro de registo à medida que é escrito e novamente à medida que é replicado.

Implementação no Sistema de Ficheiros Resiliente

Para ajudar a evitar a ocorrência de danos ao nível do sistema de ficheiros, o Exchange Online está a ser implementado em partições do Sistema de Ficheiros Resiliente (ReFS) para fornecer capacidades de recuperação melhoradas. O ReFS é um sistema de ficheiros no Windows Server 2012 e posterior que foi concebido para ser mais resiliente contra danos em dados, maximizando assim a disponibilidade e integridade dos dados. Especificamente, o ReFS traz melhorias na forma como os metadados são atualizados, o que oferece uma melhor proteção para os dados e reduz os casos de danos em dados. Também utiliza somas de verificação para verificar a integridade dos dados de ficheiros e metadados, garantindo que os dados danificados são facilmente encontrados e reparados.

O Exchange Online tira partido de vários benefícios do ReFS:

  • Mais resiliência na integridade dos dados significa menos incidentes de danos em dados. Reduzir o número de incidentes de corrupção significa menos reseeds de bases de dados desnecessárias.
  • Soma de verificação em execução em metadados que permite deteções de casos de corrupção de forma mais rápida e determinista, permitindo-nos corrigir danos nos dados dos clientes antes que ocorram falhas cinzentas nos volumes de dados.
  • Concebido para funcionar bem com grandes conjuntos de dados (petabytes e maiores) sem impacto no desempenho
  • Suporte para outras funcionalidades utilizadas pelo Exchange Online, como a encriptação BitLocker.

O Exchange Online também beneficia de outras funcionalidades do ReFS:

  • Integridade (Fluxos de Integridade) – o ReFS armazena dados de uma forma que os protege de muitos dos erros comuns que normalmente podem causar a perda de dados. A Pesquisa do Microsoft 365 utiliza Fluxos de Integridade para ajudar com a deteção precoce de danos no disco e somas de verificação de conteúdo de ficheiro. A funcionalidade também reduz os incidentes de danos causados por "Escritas Rasgadas" (quando uma operação de escrita não é concluída devido a falhas de energia, etc.).
  • Disponibilidade (Salvage) – o ReFS prioriza a disponibilidade dos dados. Historicamente, os sistemas de ficheiros eram frequentemente suscetíveis a danos em dados que exigiriam que o sistema fosse offline para reparação. Apesar de raro, se o problema ocorrer, o ReFS implementa salvage, uma funcionalidade que remove os dados danificados do espaço de nomes num volume ativo e garante que os bons dados não são afetados negativamente por dados danificados não repavoráveis. Aplicar a funcionalidade Salvage e isolar danos em dados em volumes de bases de dados do Exchange Online significa que podemos manter as bases de dados não afetadas num volume danificado em bom estado de funcionamento entre o período de danos e a ação de reparação. Esta estrutura aumenta a disponibilidade de bases de dados que normalmente seriam afetadas por tais problemas de danos no disco.