Boas Rafael! Tudo bem? Espero que sim.
Na verdade, não podemos dizer que quanto mas variáveis utilizarmos para treinar o modelo ele será melhor, por dois motivos:
- Algumas varáveis que podemos usar podem não modificar o R², ou até diminuir esse número. Nesse caso, elas não são representativas para o modelo, e não devem ser usadas.
- Também devemos pensar que para cada variável a mais que usamos, aumenta-se o custo computacional de calcular o modelo. E, principalmente quando precisamos de performance, não é interessante elevar este custo computacional.
Além desses pontos, devemos lembrar que nem sempre um modelo mais complexo é melhor!
Para escolher corretamente quais variáveis devem ficar e quais devem ser descartadas em um modelo, o que devemos avaliar é se elas são estatisticamente significativas para esse modelo. Mas não se preocupe. No decorrer desse curso e também do curso Regressão Linear: Técnicas Avançadas de Modelagem, aprenderemos melhor como avaliar isso.
Sobre a excpluir variáveis altamente correlacionadas, você está correto. Isso não é bom para o modelo pois pode enviezarr o modelo para as variáveis que possuem alta correlação, dando mais 'peso' para elas do que deveria.
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!