Inversão de conceitos (Precision Score x Recall Score) | Árvores de Decisão: aprofundando em modelos de Machine Learning

Pude observar que os conceitos de Recall e Precision não ficaram muito claros, de forma que busquei na documentação do SKLearn e acredito que possam ter ficado invertidos na aula.

A matrix de confusão mostra os valores na seguinte ordem:

"The count of true negatives (tn) is C00, false negatives (fn) is C10, true positives (tp) is C11 and false positives (fp) is C01."

A ilustração matricial fica da seguinte forma (que é o output do método .confusion_matrix()):

[[tn fp]
  [fn tp]]

O Precision Score é descrito como a capacidade do classificador de não rotular como positivo um dado que, na verdade, é positivo, da seguinte maneira:

"The precision is the ratio tp / (tp + fp) where tp is the number of true positives and fp the number of false positives. The precision is intuitively the ability of the classifier not to label as positive a sample that is negative."

Ou seja, seria calculado pelos true positives (fraudes que foram de fato classificadas como fraudes) dividido pela soma desse valor (tp) com os false positives (transações não fraudulentas classificadas como fraudes).

tp / (tp + fp)

Já o Recall Score é descrito como a capacidade do classificador de encontrar todas as amostras positivas.

"The recall is the ratio tp / (tp + fn) where tp is the number of true positives and fn the number of false negatives. The recall is intuitively the ability of the classifier to find all the positive samples."

tp / (tp + fn)

Durante a aula Medindo além da acurácia, nos cálculos pelas apresentação de slides, os conceitos foram trocados, mas não faz diferença numericamente por coincidência, já no notebook do colab, podemos ver a troca das fórmulas se calcular na mão e comparar.