Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Dúvida - Colunas rawPrediction e probability

Boa noite!

Nas primeiras aulas do curso de modelos de classificação foi falado que, após a aplicação do modelo de regressão logística e execução das previsões, o próprio algoritmo retornaria duas colunas chamadas "rawPrediction" e "probability". De acordo com o que eu consegui absorver das explicações, a coluna rawPrediction representaria a previsão numérica obtida diretamente do ajuste dos dados (regressão linear), enquanto a coluna probability seria uma representação desses mesmos valores após terem passado por uma função de ativação sigmoide (que, por fim, determinaria o resultado da previsão: 0 ou 1).

(Print de exemplo dos códigos aplicados)

Até aqui tudo certo! A minha dúvida é a seguinte: porque essas duas colunas contém uma lista de tamanho 2 com 2 valores distintos? Em minha concepção, deveríamos ter um único número para cada linha dessas colunas... Alguém sabe me dizer o que esses dois números significam?

1 resposta
solução!

Boa noite Lucas,

Existem 2 valores pois cada um representa a probabilidade da previsão de cada label, como é uma classificação binomial, ou seja, o valor previsto só poderá ser 0 ou 1, existem os dois valores: probabilidade de ser 0 e probabilidade de ser 1.

Por exemplo, a primeira linha:

  • rawPrediction: nessa coluna, quanto maior um número, maior a probabilidade de ser aquele label. O label "0" foi atribuído o valor 3, enquanto o "1" atribuiu -3, representando que o label "0" tem muito mais probabilidade de ser o certo, mostrado então na coluna de "probability".
  • probability: aqui se reflete o resultado da coluna "rawPrediction", o modelo prevê a probabilidade do label certo ser de 95,2%! Por isso sua previsão, assim o valor único, é o label "0".

Neste link há uma discussão com sobre o seus significados, modelos para classificação e diferenciais nas predições e como calcular para conferir.

Espero que eu tenha ajudado!