Operações de carga de trabalho no gerenciamento de nuvem
Algumas cargas de trabalho são críticas para o sucesso dos negócios. Para essas cargas de trabalho, uma linha de base de gerenciamento é insuficiente para atender aos compromissos de negócios necessários para o gerenciamento de nuvem. Operações de plataforma podem até mesmo não serem suficientes para atender aos compromissos de negócios. Esse subconjunto extremamente importante de cargas de trabalho requer um foco especializado na maneira como funciona a carga de trabalho e como ela é suportada.
Em troca, o investimento em operações de carga de trabalho pode levar a uma melhora no desempenho, a um menor risco de interrupção dos negócios e à recuperação mais rápida quando ocorrem falhas do sistema. Este artigo discute uma abordagem para investir nas operações contínuas dessas cargas de trabalho de alta prioridade para gerar melhores compromissos de negócios.
Quando investir em operações de carga de trabalho
O princípio de Pareto (também conhecido como a regra 80/20) afirma que 80% dos efeitos vêm de 20% das causas. Quando os portfólios de TI têm permissão para crescer organicamente com o tempo, essa regra geralmente é ilustrada em uma revisão do portfólio de TI. Dependendo do efeito que exige investimento, a causa pode variar, mas o princípio geral é verdadeiro:
- 80 por cento das falhas do sistema tendem a ser o resultado de 20% de erros ou bugs comuns.
- 80% do valor de negócios tende a vir de 20% das cargas de trabalho em um portfólio.
- 80% do esforço para migrar para a nuvem vem de 20% das cargas de trabalho que estão sendo movidas.
- 80% dos esforços de gerenciamento de nuvem dará suporte a 20% dos incidentes de serviço ou tíquetes de problema.
- 80% do impacto nos negócios de uma interrupção será proveniente de 20% dos sistemas afetados pela interrupção.
As operações de carga de trabalho devem ser aplicadas somente quando a estratégia de adoção de nuvem, os resultados dos negócios e as métricas operacionais forem bem compreendidas. Essa é uma mudança de paradigma da visão clássica da TI. Tradicionalmente, a TI supunha que todas as cargas de trabalho tinham o mesmo grau de suporte e que exigiam níveis semelhantes de prioridade.
Antes de investir em operações de carga de trabalho profundas, tanto a TI quanto a empresa devem entender as justificativas de negócios e as expectativas do aumento do investimento no gerenciamento de nuvem.
Iniciar com os dados
As operações de carga de trabalho começam com uma compreensão profunda dos requisitos de desempenho e suporte da carga de trabalho. Antes de a equipe investir em operações de carga de trabalho, ela deve ter dados avançados sobre dependências de carga de trabalho, desempenho de aplicativos, diagnósticos de banco de dados, telemetria de máquina virtual e histórico de incidentes.
Esses dados propagam os insights que orientam as decisões de operações de carga de trabalho.
Observação continuada
Os dados iniciais e a telemetria contínua podem ajudar a formular e testar teorias sobre o desempenho de uma carga de trabalho. Mas as operações de carga de trabalho contínuas têm raiz em uma observação contínua e expandida do desempenho da carga de trabalho, com um foco intenso no desempenho de aplicativos e dados.
Testar a automação
No nível do aplicativo, os primeiros requisitos de operações de carga de trabalho são um investimento em testes detalhados. Para qualquer aplicativo com suporte por meio de operações de carga de trabalho, um plano de teste deve ser estabelecido e executado regularmente para fornecer testes funcionais e de escala nos aplicativos.
A telemetria de teste regular pode fornecer validação imediata de várias hipóteses sobre a operação da carga de trabalho. Aprimorar os padrões de arquitetura e operacionais pode ser executado e testado. Os deltas resultantes fornecem uma análise de impacto clara para orientar os investimentos contínuos.
Entender as versões
Uma compreensão clara dos ciclos de liberação e dos pipelines de lançamento é um elemento importante das operações de carga de trabalho.
Uma compreensão dos ciclos pode preparar para possíveis interrupções e permitir que a equipe resolva proativamente todas as versões que possam produzir um efeito adverso nas operações. Essa compreensão também permite que a equipe de gerenciamento de nuvem faça parcerias com as equipes de adoção para melhorar continuamente a qualidade do produto e resolver quaisquer bugs que possam afetar a estabilidade.
E o que é mais importante, uma compreensão dos pipelines de lançamento pode melhorar significativamente o RPO (objetivo de ponto de recuperação) de uma carga de trabalho. Em muitos cenários, o caminho mais rápido e preciso para a recuperação de um aplicativo é um pipeline de lançamento. Para camadas de aplicativo que são alteradas somente quando ocorre uma nova versão, pode ser recomendável investir mais fortemente na otimização do pipeline do que na recuperação do aplicativo de processos de backup tradicionais.
Embora um pipeline de implantação possa ser o caminho mais rápido para a recuperação, ele também pode ser o caminho mais rápido para a correção. Quando um aplicativo tem um pipeline de lançamento rápido, eficiente e confiável, a equipe de gerenciamento de nuvem tem a opção de automatizar a implantação em um novo host como forma de correção automatizada.
Pode haver muitos outros mecanismos mais rápidos e eficientes para a correção e recuperação. No entanto, quando o uso de um pipeline existente pode atender a compromissos de negócios e aproveitar os investimentos existentes em DevOps, o pipeline existente pode ser uma alternativa viável.
Comunique claramente as alterações na carga de trabalho
A mudança para qualquer carga de trabalho está entre os maiores riscos para as operações de carga de trabalho. Para qualquer carga de trabalho no nível de operações de carga de trabalho do gerenciamento de nuvem, a equipe de gerenciamento de nuvem deve alinhar-se fortemente às equipes de adoção de nuvem para entender as alterações provenientes de cada versão. Esse investimento em compreensão proativa terá um impacto direto e positivo sobre a estabilidade operacional.
Melhorar os resultados
Os investimentos de dados e comunicação em uma carga de trabalho produzirão sugestões para melhorias em operações contínuas em uma das três áreas:
- Resolução de dívida técnica
- Correção automatizada
- Design do sistema aprimorado
Resolução de dívida técnica
Os planos de operações de melhor carga de trabalho ainda exigem correção. À medida que sua equipe de gerenciamento de nuvem busca se manter conectada para entender os esforços de adoção e as versões, ela deve, da mesma forma, compartilhar regularmente os requisitos de correção para garantir que a dívida técnica e os bugs sejam uma prioridade contínua para suas equipes de desenvolvimento.
Correção automatizada
Ao aplicar o princípio de Pareto, podemos dizer que 80% do impacto negativo dos negócios vem provavelmente de 20% dos incidentes de serviço. Quando esses incidentes não podem ser resolvidos em ciclos normais de desenvolvimento, os investimentos na automação de correção podem reduzir significativamente as interrupções de negócios.
Design do sistema aprimorado
Nos casos de resolução de dívidas técnicas e correção automatizada, as falhas do sistema são a causa comum da maioria das interrupções do sistema. Você pode ter o maior impacto sobre as operações gerais de carga de trabalho ao aderir a alguns princípios de design:
- Escalabilidade: a capacidade de um sistema lidar com aumentos de carga.
- Disponibilidade: o percentual de tempo no qual um sistema está funcional e em operação.
- Resiliência: a capacidade de um sistema de se recuperar de falhas e continuar funcionando.
- Gerenciamento: processos de operações que mantêm um sistema em execução em produção.
- Segurança: proteger aplicativos e dados contra ameaças.
Para ajudar a melhorar as operações gerais, o Microsoft Azure Well-Architected Framework fornece uma abordagem para avaliar cargas de trabalho específicas para adesão a esses pilares. Aplique os pilares às operações da plataforma e às operações de carga de trabalho.
Próximas etapas
Com uma compreensão total da metodologia de Gerenciamento dentro do Cloud Adoption Framework, agora você está preparado para implementar princípios de gerenciamento de nuvem. Saiba como tornar essa metodologia acionável em seu ambiente de operações.