Introdução à SRE

Concluído

Como uma unidade final deste módulo, vamos falar sobre as próximas etapas, caso você esteja interessado em explorar a SRE.

Lendo e assistindo

Para obter informações mais detalhadas sobre a SRE, a melhor fonte são três livros que foram publicados sobre o assunto

  1. Site Reliability Engineering: How Google Runs Production Systems (Engenharia de Confiabilidade do Site: como a Google executa sistemas de produção) (conhecido como "O livro sobre SRE")
  2. The Site Reliability Workbook: Practical Ways to Implement SRE (O manual de Confiabilidade do Site: maneiras práticas de implementar a SRE) (conhecido como "O manual de SRE")
  3. Seeking SRE: Conversations About Running Production Systems at Scale (Buscando a SRE: conversas sobre a execução de sistemas de produção em escala)

(Como uma divulgação rápida, o autor principal deste módulo é o curador/editor do terceiro livro)

Cada um desses livros fornece um conjunto importante de informações:

  • O livro SRE: Fornece uma explicação detalhada de como o Google implementou o SRE ao longo dos anos.

  • A apostila SRE: Um complemento ao The SRE Book que fornece uma explicação mais detalhada não apenas do "o quê" do SRE no Google e em alguns outros lugares, mas também do "como" e do "por quê".

  • Buscando SRE: Fornece uma visão mais ampla do mundo SRE além de sua origem, incluindo informações sobre como ele foi implementado em outros ambientes.

Leia os três livros com um olhar crítico. Talvez nem tudo que está escrito nesses livros se aplique a você e à sua organização. Reserve algum tempo para identificar as informações que você tem certeza de que podem fornecer algum valor positivo. Pense sobre quais partes da cultura e dos valores de sua organização podem dar suporte ao trabalho da SRE descrito e que podem torná-lo mais desafiador.

Se você é uma pessoa mais visual, assista à palestra Segredos da SRE de Ben Treynor na conferência SREcon14. Treynor fornece uma explicação convincente do que é a SRE (pelo menos no contexto da Google). Outras palestras gravadas sobre a SRE desta série de conferências e de outras também podem ser úteis.

Conversar com outras pessoas interessadas

Tão importante quanto ler sobre a SRE é, muitas vezes, conversar sobre ela com seus colegas. Ter uma discussão sobre seus desafios, sucessos e fracassos em torno do SRE pode ser crucial para obter uma compreensão mais detalhada do assunto.

Há várias reuniões e conferências que apresentam conteúdo sobre a SRE. Talvez as mais diretamente relevantes sejam as conferências SREcon globalmente distribuídas promovidas pela USENIX (aviso de isenção de responsabilidade: o autor principal deste módulo é um dos cofundadores da SREcon).

Há ainda mais conteúdo sobre a SRE que está sendo inserido em conferências como Velocity, LISA e conferências locais de DevOps, como DevOps Days. Procure esse conteúdo e outras pessoas interessadas no assunto sempre que puder encontrá-los.

Primeiras etapas no trabalho

É importante lembrar que a SRE não é uma proposta do tipo "tudo ou nada". Se quiser começar a explorar como trazer a SRE para seu ambiente, você pode começar adotando princípios e práticas de SRE em pequenas passos.

Mikey Dickerson é um SRE bem conhecido por seu trabalho no que se tornaria o Serviço Digital dos Estados Unidos. Eles foram responsáveis por salvar o healthcare.gov. Ele propôs uma hierarquia de confiabilidade inspirada na hierarquia de necessidades de Maslow. Ele é citado na seção Práticas do primeiro livro sobre SRE.

Essa hierarquia propõe que você primeiro deve obter monitoramento funcional e confiável em seu ambiente. O monitoramento deve ser uma primeira etapa em direção à SRE para seu ambiente também. Você não pode determinar se algo é confiável (ou está melhorando ou piorando) se não pode medi-lo.

Depois de ter uma plataforma de monitoramento em que você possa confiar, a próxima etapa acessível é escolher um serviço em funcionamento. Em seguida, comece a ter conversas de SLI e SLO sobre isso. Comece com algo simples. Crie SLIs e SLOs para o serviço, implemente-os em seu sistema de monitoramento e veja o que acontece quando você começa a prestar atenção à confiabilidade usando a lente SRE. Essas são ótimas etapas para começar.