Confiabilidade no Operador Nexus do Azure
Importante
Esse recurso está atualmente na visualização. As versões prévias são disponibilizadas com a condição de que você concorde com os termos de uso complementares.
Este artigo descreve o suporte para confiabilidade no Operador Nexus do Azure e aborda a resiliência intrarregional com zonas de disponibilidade. Para obter uma visão geral mais detalhada da confiabilidade no Azure, confira Confiabilidade do Azure.
Suporte à zona de disponibilidade
As zonas de disponibilidade são grupos de datacenters fisicamente separados em cada região do Azure. Quando uma zona falha, os serviços podem fazer failover para uma das zonas restantes.
Para obter mais informações sobre zonas de disponibilidade no Azure, consulte O que são zonas de disponibilidade?.
O Operador Nexus do Azure oferece implantações com redundância de zona de disponibilidade por padrão. Os componentes do Operador Nexus, como o Gerenciador de Cluster e o Controlador de Malha de Rede, são todos implantados em um cluster do Serviço de Kubernetes do Azure (AKS) habilitado com zonas de disponibilidade. Outras dependências de serviço, como o Serviço de Conta de Armazenamento e o KeyVault, também são configuradas com redundância de zona de disponibilidade.
Observação
A Instância local do Operador Nexus implementam um design de vários racks que fornece redundância física em todos os níveis da pilha. Cada rack é projetado como um domínio de falha ou zona Nexus. As cargas de trabalho do cliente podem ser implantadas em vários racks/nós, essencialmente fornecendo uma experiência de zona de várias disponibilidades semelhante.
Experiência de zona de disponibilidade do Azure inoperante
Em um cenário de zona de disponibilidade inoperante, as chamadas à API no cluster e nos provedores de recursos continuariam a funcionar sem interrupção. Não haveria nenhum impacto nas cargas de trabalho de locatário locais em execução no momento ou na capacidade de criar novas cargas de trabalho de locatário. Além disso, nenhuma perda de dados deve ocorrer, pois a resiliência do Operador Nexus e de outros tipos de recursos está garantida.
Suporte a failover de zona de disponibilidade do Azure
No caso de uma falha de zona de disponibilidade, a reconexão a outra zona de disponibilidade do Azure é automática e não requer nenhuma interação do usuário.
Disponibilidade em implantações de instância do Operador Nexus
Garantir a disponibilidade nas implantações de carga de trabalho do Operador Nexus do Azure é uma responsabilidade dividida. Conforme mencionado na seção anterior, os recursos com base no Operator Nexus do AKS são implantados com redundância de zona de disponibilidade. Nesta seção, consideramos as melhores práticas para disponibilidade de carga de trabalho local.
Em geral, as metas de disponibilidade são alcançadas por meio de implantações locais e com redundância geográfica.
Zona Nexus: um mecanismo para redundância de carga de trabalho local
As instâncias locais do Operador Nexus consistem em um design de vários racks que fornece redundância física em todos os níveis da pilha. Cada rack é designado como um domínio de falha e, portanto, pode ser configurado como uma zona Nexus em que essas zonas podem e, preferencialmente, devem ser usadas para implantações de carga de trabalho com redundância local.
Instância Nexus: um mecanismo para redundância de carga de trabalho geográfica
As instâncias locais Nexus são hospedados em uma região específica do Azure. Conforme mencionado anteriormente, os serviços usados do Azure e os recursos Nexus são implantados em várias zonas de disponibilidade dessa região do Azure.
Instâncias do Nexus que são distribuídas geograficamente, ou seja, não estão no mesmo data center do operador (possivelmente nem mesmo na mesma região geográfica) e que são hospedadas em diferentes regiões do Azure devem ser utilizadas para implantar cargas de trabalho com redundância geográfica.
Aviso
Implantar cargas de trabalho em, digamos, duas instâncias Nexus geograficamente distribuídas é insuficiente para obter redundância geográfica verdadeira, a menos que as instâncias Nexus com redundância geográfica estejam hospedadas em diferentes regiões do Azure.
No caso improvável de uma região do Azure ficar indisponível, os serviços do Azure, bem como os recursos Nexus nessa região, também ficarão indisponíveis. Embora isso não afete a execução de cargas de trabalho, ela impede recursos como o de iniciar novas cargas de trabalho, análises, etc.
Várias instâncias Nexus na mesma localização geográfica
Há cenários em que várias instâncias Nexus precisam ser implantadas na mesma localização geográfica. A redundância geográfica da carga de trabalho obviamente não é obtida implantando cargas de trabalho em instâncias Nexus na mesma localização geográfica.
Uma consideração na criação de confiabilidade, além da disponibilidade, é a resiliência e a capacidade de se recuperar de falhas. A recuperação de falhas e a capacidade de atender aos objetivos de tempo de recuperação exigem que limitemos o raio de "explosão" ou impacto de falhas. No cenário em que várias instâncias Nexus são implantadas na mesma localização geográfica, o design resiliente exige que essas instâncias Nexus sejam hospedadas em diferentes regiões do Azure. Assim, quando uma região do Azure falha, seu impacto é limitado a uma instância Nexus.