Site Reliability Engineering (SRE) é o resultado de operação (Ops) sendo tratada como software e o conceito originou-se nos times de engenharia do Google. Times SRE usam ferramentas e software para gerenciar problemas e automatizar tarefas. No passado, essas tarefas eram feitas de forma manual, mas os conceitos DevOps e SRE vieram para mudar esse paradigma.
A posição de SRE vem cada vez mais sendo requisitava em grandes empresas, especialmente as focadas em ambientes cloud. SREs são profissionais que agregam conhecimentos de engenharia de software com operação (Ops), uma combinação interessante de conhecimentos que permite focar em manter ambientes e serviços no ar através de monitoramento, métricas, gerenciamento de incidentes, auto healing entre outras técnicas.
Amador Pahim, SRE na Red Hat, explica conceitos SRE, relação entre SRE, DevOps e SysAdmin, SLOs (Service level objectives), SLIs (Service level indicators), SLAs (Service level agreement), boas práticas, resposta a incidentes, conhecimentos necessários para ser um bom profissional SRE e muito mais.
Links mencionados:
Escute em uma variedade de locais:
Ou assista a gravação na íntegra:
Participantes
Alexandre Vicenzi
Engenheiro de Software e bacharel em Ciência da Computação. Contribui com software de código aberto há quase 10 anos, além de ser co-fundador do Buteco Tecnológico.
Amador Pahim
Principal SRE na Red Hat Ireland, Tech Lead do time de SREs para Managed Services do OpenShift. Background como Administrador de Sistemas e também como Engenheiro de Software, membro ativo em comunidades de Software Livre e palestrante frequente em eventos de TI. Deixou para trás a atividade de professor no Brasil para se aventurar pela Europa, passando pela República Tcheca e pela Alemanha antes de se estabelecer na Irlanda. Roda Fedora tanto no computador pessoal quanto no computador da empresa.
Marcos Paulo de Souza
Engenheiro de Software na SUSE. Bacharel em Ciência da Computação pela Fundação Universidade Regional de Blumenau e contribuidor de projetos livres e de código aberto. Trabalhando atualmente na SUSE como Enterprise Storage Developer.