Acredito que ou a pergunta está feita de forma errada, ou a resposta está errada. Pois se você tem SLA e SLO para cumprir, quanto mais tempo você perde para achar a causa raiz e tentar resolver o problema pode consumir seu erro budget. Então o correto seria tirar a feature problematica do ar, lembrando do golden signal, se você uma uma metrica SLI baseada em error, também seria um problema. A questão é muito subjetiva quando diz uma porcentagem pequena de pessoas, se 0,01% pode ser considerado pequeno olhando para o numero, mas e seu SLO é 99,99%, já daria ruim e consumira todo seu erro budget.