Escolha do Modelo utilizado | Machine Learning: classificação por trás dos panos

Olá, Camille!

Muito obrigado por seu feedback!

A escolha da métrica de avaliação do modelo em Machine Learning depende muito do contexto e do problema que você está tentando resolver. No caso dessa aula, a professora optou por utilizar a precisão como métrica principal, pois ela estava mais interessada em quantos valores positivos foram previstos corretamente pelo modelo. Isso é especialmente importante quando estamos lidando com a previsão de Churn (clientes que estão deixando a empresa), pois queremos focar em prever corretamente esses casos para poder tomar ações preventivas.

No entanto, ela menciona que o recall também seria uma boa métrica, pois ele foca em quantos dos verdadeiros positivos o modelo foi capaz de captar. Em alguns contextos, isso pode ser mais importante. Por exemplo, em um teste de diagnóstico médico, você pode estar mais interessado em captar todos os possíveis casos positivos (alta sensibilidade/recall) do que em estar certo todas as vezes que você prevê um caso positivo (alta precisão).

Para ilustrar isso com um exemplo prático, imagine que temos um modelo que prevê se um email é spam ou não. Se optarmos por focar na precisão, queremos ter certeza de que, quando o modelo diz que um email é spam, ele realmente é. No entanto, se optarmos por focar no recall, queremos captar o máximo possível de emails spam, mesmo que isso signifique classificar erroneamente alguns emails legítimos como spam.

Vou compartilhar contigo um resumo de algumas das métricas de avaliação de modelos:

Accuracy (acurácia): Esta é a proporção de predições corretas (verdadeiras positivas + verdadeiras negativas) em relação ao total de amostras. Se a acurácia do modelo é de 0,75, significa que o modelo fez a predição correta em 75% das vezes.
Precision (precisão):: Esta é a razão entre as verdadeiras predições positivas e todas as predições positivas (verdadeiras positivas + falsas positivas). Esta métrica indica a capacidade do modelo de não classificar como positiva uma amostra que é negativa. Para a classe 0, se um modelo tem uma precisão de 0,78, significa que quando o modelo prevê que uma amostra é da classe 0, ele está correto 78% das vezes.
Recall: Esta é a razão entre as verdadeiras predições positivas e todas as amostras que realmente são da classe positiva (verdadeiras positivas + falsas negativas). Esta métrica indica a capacidade do modelo de encontrar todas as amostras positivas. Para a classe 0, se o recall do modelo é de 0,91, significa que ele pode identificar 91% das amostras da classe 0 corretamente.
F1-score: Esta é a média harmônica entre precisão e recall. O F1-score tenta encontrar o equilíbrio entre precisão e recall. Um F1-score perfeito é 1, enquanto o pior valor é 0. Um F1-score alto indica um bom equilíbrio entre precisão e recall, o que é importante em muitos cenários de classificação, onde é crucial evitar tanto falsos positivos quanto falsos negativos.

Espero ter ajudado e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!