Aprenda com a New Relic a lidar com incidentes On-call

Aprenda com a New Relic a lidar com incidentes On-call

Para muitas empresas e profissionais lidar com on-call e com os processos incidentes de resposta podem levar ao estresse e ansiedade. Muitos engenheiros competentes, inclusive, chegam a recusar jobs. Porém, não precisa ser dessa forma. As práticas DevOps da New Relic tem possibilitado criar on-call e os processos com suporte e máximo uso de recursos do sistema.

Aprendendo a lidar com On-call

A equipe atual New Relic conta com mais de 50 times de engenheiros, com mais de 400 engenheiros e gerentes dando o suporte para mais 200 serviços individuais.

Cada time possui autonomia e trabalha de forma independente e unitária. Usando tecnologia personalizada com a capacidade para manter e escrever seus próprios serviços, gerenciar os avanços e trabalhar os on-call.

Além disso, cada profissional lidará com on-call desde o começo. Times competentes estão espalhados pelos Estados e Europa trabalhando globalmente em conjunto com Portland para lidar com essa questão.

Adote as práticas DevOps

Existem vários silos que podem ser transformados em aplicações de arquiteturas modernas como as que a New Relic usa.

Por exemplo, o DevOps suporta a ideia que o time não pode agir sozinho sem considerar os outros. Ele deve ser capaz de interagir e ter acesso à documentação on-call para que eles funcionem de forma satisfatória.

Além disso, os desenvolvedores poderão tomar melhores decisões e oferecer o suporte adequado. Antes do DevOps, os On-call acabavam submetidos a engenheiros e outros profissionais de TI. Isso causava muitos problemas e a equipe tinha que se virar sem feedback e acabam as deixando de lado.

Autonomia e prestação de contas

Um processo ideal e satisfatório on-call dependerá dos integrantes do time, dos produtos que eles gerenciam e seus conhecimentos. Na New Relic, cada time cria seu próprio sistema refletindo suas capacidades e necessidades.

Identificação e análise

A New Relic considera em cada time o número total de páginas por engenheiro, horas dedicadas e as extras. Essas métricas são essenciais para que cada time esteja capacitado para responder e gerenciar da melhor forma. Então, ninguém ficará sobrecarregado.

Considerações ao escolher um modelo

O on-call não precisa ser complexo, por isso conheça alguns questionamentos úteis antes de escolher um modelo de trabalho.

  • Como será a seleção para escolher os membros de cada on-call?
  • Quanto tempo a rotação durará?
  • O que acontece se alguém falhar para atender o chamado?
  • Que opções estão disponíveis se alguém sentir que não consegue completar a tarefa?
  • Quantos estarão ativos para resolver on-call?
  • Como eles dividirão as tarefas?
  • Como lidar com imprevistos?

Saber lidar com imprevistos é essencial. Alguns erros podem ser identificados apenas por softwares, enquanto outros podem afetar milhões de usuários. Por isso, a resposta tem que ser rápida e eficiente. Confira algumas dicas.

  • Descubrir os erros antes que o usuário o faça;
  • É importante desenvolver um sistema para avaliar a gravidade do incidente separando por diferentes níveis;
  • Definir e delegar cada ação de maneira pessoal e individual dentro de cada time. É preciso distribuir as funções e deixar claro e documentado;
  • Quem tem possibilidade pode criar um cenário e ver como o time reage para definir prioridades e estabelecer procedimentos;
  • Sempre espere pelo melhor, mas prepare-se para o pior também;
  • Aprenda com os incidentes para fazer melhorias e crescer;
  • Implemente um documento para que os erros não sejam repetidos;

Além disso, crie guias para o time saber o que esperar, identificar e reduzir erros e aprender a estruturar as on-call e os incidentes de resposta. Com esses passos e com a New Relic é possível descomplicar e gerenciá-los sem traumas.

Deixe uma resposta

Fechar Menu