[Dúvida] Como identificar falsos positivos e negativos na matriz de confusão para classificação multiclasse | Classificação: resolvendo problemas multiclasse

Solucionado (ver solução)

Solucionado
(ver solução)

2
respostas

Referente ao curso Classificação: resolvendo problemas multiclasse, no capítulo Avaliando o modelo e atividade Para saber mais: matriz de confusão para classificação multiclasse

por Matheus Ricardo Uihara Zingarelli

| 252.1k xp | 324 posts

Olá.

Quando a matriz de confusão é maior do que 2x2, como eu identifico onde ficam os falsos positivos e falsos negativos? Isso costuma dar um nó na minha cabeça, por isso preciso de ajuda. Quando é 2x2 eu entendo, mas acima disso já me perco...

Pensando em uma matriz 3x3, como a da aula, em que as linhas são os valores reais e as colunas o valores previstos, os falsos positivos seriam todos os valores acima da diagonal principal, e os falsos negativos seriam todos os valores abaixo da diagonal principal? Posso sempre generalizar dessa forma?

Obrigado!

2 respostas

solução!

por Valquíria Alencar

| 183.2k xp | 196 posts

11/01/2024

Olá Matheus,

Entendo que a interpretação da matriz de confusão pode parecer um pouco complicada quando ultrapassamos o formato 2x2.

Vamos tentar entender, com a ajuda da matriz de confusão abaixo obtida do artigo Bias and Unfairness in Machine Learning Models: A Systematic Review on Datasets, Tools, Fairness Metrics, and Identification and Mitigation Methods. Neste exemplo, consideramos 3 classes: Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Ao trabalharmos com uma matriz 2x2, a diagonal principal, em verde, representa os verdadeiros positivos. No entanto, quando expandimos para uma matriz 3x3, a compreensão é um pouco diferente. Para calcular os valores da Classe 1, por exemplo, note que:

TP (True positive) é o valor da previsão correta.
Os TN (True negative) são a soma das classes que não envolvem a Classe 1.
Os FP (False positive) são a soma das classes erroneamente previstas como Classe 1,
Os FN (False negative) são a soma das classes previstas como outras classes que deveriam ter sido previstas como Classe 1.

Esse processo é repetido para todas as classes, e os valores totais de TP, FP, TN e FN são calculados em média para obter métricas como recall e sensibilidade.

Espero que isso ajude a desatar esse nó na sua cabeça!

Se tiver mais dúvidas, estou aqui para ajudar.

por Matheus Ricardo Uihara Zingarelli

| 252.1k xp | 324 posts

12/01/2024

Oi Valquíria, agradeço pelo seu retorno e pelo seu curso.

Confesso que em um primeiro momento, ao olhar para a imagem, o nó apertou ainda mais, haha. Ficou diferente do que eu imaginava que seria. No entanto, ao ler seu texto e dar uma olhada na explicação que tem no artigo, a imagem começou a fazer sentido e agora entendi.

Então, no caso de problemas multiclasse, TP, TN, FP e FN vão ser baseadas na classe que eu indicar como positiva, seguindo os passos que você indicou no texto. Ou seja, ao olhar para a Classe 2 da imagem, TP, TN, FP e FN seriam diferentes, e o mesmo aconteceria para a Classe 3. E aí, caso eu quisesse o valor geral para a matriz de confusão, eu faria a média do que eu obtive em cada métrica para cada classe.

Obrigado pelos esclarecimentos!