Olá.
Será que eu não poderia simplesmente transformar os valores da variável categórica de string para numérica em vez de aumentar a quantidade de variáveis (estou imaginando um cenário onde a variável categórica tem vários valores)?
Obrigada
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
Olá.
Será que eu não poderia simplesmente transformar os valores da variável categórica de string para numérica em vez de aumentar a quantidade de variáveis (estou imaginando um cenário onde a variável categórica tem vários valores)?
Obrigada
Olá Maria, tudo bem? Espero que sim!
Ao trabalhar com variáveis categóricas, é necessário transformar em diversas variáveis dummy (colunas com 0 e 1) para que o modelo não entenda que há uma ordem de importância para a variável. No exemplo da aula, a variável original tinha as classes: "algoritmos", "java" e "ruby". Caso você transformasse para valores 1, 2 e 3, por exemplo, o modelo entenderia que ruby = 3 tem um peso maior que algoritmos = 1 e java = 2, o que não é verdade, porque não há uma ordem para essas classes.
Além disso, esse processo acarreta em um erro de ponderação arbitrária. Quem disse que o valor de ruby deve ser igual a 3? Quem disse que java tem o dobro de importância que algoritmos? Esses valores fixados foram escolhidos de forma que não corresponde à realidade dessas classes, portanto não podemos transformar variáveis categóricas em numéricas para utilizar em modelos de machine learning. A transformação para variáveis dummy é o procedimento que evita a ponderação arbitrária e não cria uma ordem de importância para as classes.
Espero que tenha tirado sua dúvida.
Estou à disposição. Bons estudos!