1
resposta

Variável Categórica

Olá.

Será que eu não poderia simplesmente transformar os valores da variável categórica de string para numérica em vez de aumentar a quantidade de variáveis (estou imaginando um cenário onde a variável categórica tem vários valores)?

Obrigada

1 resposta

Olá Maria, tudo bem? Espero que sim!

Ao trabalhar com variáveis categóricas, é necessário transformar em diversas variáveis dummy (colunas com 0 e 1) para que o modelo não entenda que há uma ordem de importância para a variável. No exemplo da aula, a variável original tinha as classes: "algoritmos", "java" e "ruby". Caso você transformasse para valores 1, 2 e 3, por exemplo, o modelo entenderia que ruby = 3 tem um peso maior que algoritmos = 1 e java = 2, o que não é verdade, porque não há uma ordem para essas classes.

Além disso, esse processo acarreta em um erro de ponderação arbitrária. Quem disse que o valor de ruby deve ser igual a 3? Quem disse que java tem o dobro de importância que algoritmos? Esses valores fixados foram escolhidos de forma que não corresponde à realidade dessas classes, portanto não podemos transformar variáveis categóricas em numéricas para utilizar em modelos de machine learning. A transformação para variáveis dummy é o procedimento que evita a ponderação arbitrária e não cria uma ordem de importância para as classes.

Espero que tenha tirado sua dúvida.

Estou à disposição. Bons estudos!