Olá, William!
Entendo sua preocupação com relação ao SLA e SLO, e você está correto em considerar o impacto que uma falha pode ter sobre o erro budget. No entanto, a abordagem sugerida na questão está focada em uma prática que é comum no papel de um SRE: a resolução de problemas de forma controlada e metódica.
A opção correta, que é isolar e identificar a causa dos problemas, desenvolver uma correção, testá-la adequadamente e implementá-la em uma nova atualização, é uma abordagem que visa garantir que a solução seja eficaz e não introduza novos problemas. Essa prática é importante para manter a confiabilidade do sistema a longo prazo.
Descartar a atualização e fazer rollback pode ser uma solução rápida, mas não necessariamente a mais eficaz. Isso porque pode não resolver a causa raiz do problema, e o mesmo erro pode ocorrer novamente no futuro. Além disso, fazer rollback pode impactar outras funcionalidades que já estavam funcionando corretamente na nova versão.
É claro que, em situações onde o impacto é muito grande e imediato, um rollback pode ser necessário como uma medida de contenção. No entanto, a abordagem de isolar e corrigir o problema é geralmente preferida quando o impacto é limitado e controlável, como no caso de uma pequena porcentagem de usuários afetados.
Bons estudos!