1
resposta

Variáveis Utilizadas para o Aprendizado

Olá! Gostaria de uma confirmação sobre o meu pensamento a respeito da seleção das variáveis para treinar o modelo.

Pelo que compreendi e percebi, quanto mais variáveis utilizarmos para treinar o modelo, melhor. Uma vez que ao adicionarmos uma variável o Erro não aumentará, ou o R^2 não diminuirá. Entretanto, caso duas variáveis explicativas apresentam uma alta correlação, devemos descartar uma delas, pois isso não é bom para o modelo, correto?

Caso a resposta seja afirmativa, qual seria um valor médio que poderiamos considerar essa correlação alta?

Espero que minha pergunta tenha sido clara! kkk e agradeço a ajuda!

Abraços.

1 resposta

Boas Rafael! Tudo bem? Espero que sim.

Na verdade, não podemos dizer que quanto mas variáveis utilizarmos para treinar o modelo ele será melhor, por dois motivos:

  1. Algumas varáveis que podemos usar podem não modificar o R², ou até diminuir esse número. Nesse caso, elas não são representativas para o modelo, e não devem ser usadas.
  2. Também devemos pensar que para cada variável a mais que usamos, aumenta-se o custo computacional de calcular o modelo. E, principalmente quando precisamos de performance, não é interessante elevar este custo computacional.

Além desses pontos, devemos lembrar que nem sempre um modelo mais complexo é melhor!

Para escolher corretamente quais variáveis devem ficar e quais devem ser descartadas em um modelo, o que devemos avaliar é se elas são estatisticamente significativas para esse modelo. Mas não se preocupe. No decorrer desse curso e também do curso Regressão Linear: Técnicas Avançadas de Modelagem, aprenderemos melhor como avaliar isso.

Sobre a excpluir variáveis altamente correlacionadas, você está correto. Isso não é bom para o modelo pois pode enviezarr o modelo para as variáveis que possuem alta correlação, dando mais 'peso' para elas do que deveria.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!