1
resposta

Variáveis explicativas com alta correlação

Boa tarde!

Eu entendi quando o professor Rodrigo diz que não é legal colocarmos no modelo variáveis explicativas com alta correlação para não prejudicar o nosso modelo, porém, a gente tem que eliminar todas?

Por exemplo, na aula, ele comentou que as variáveis "temp_media", "temp_min" e "temp_max" têm alta correlação e que por isso elas foram eliminadas, mas a gente não poderia (ou deveria) considerar pelo menos uma delas?

Até entendo que as três juntas podem levar à conclusões erradas, porém, não seria interessante (e até necessário) deixar pelo menos uma delas no modelo?

Tks...

1 resposta

Olá, Emerson, tudo bem?

Na verdade, o ideal é evitar incluir todas as variáveis altamente correlacionadas no modelo de regressão linear, pois elas podem causar multicolinearidade, o que prejudica a interpretação dos coeficientes e a precisão das previsões. No entanto, é importante analisar o contexto e o objetivo do modelo para decidir se alguma das variáveis altamente correlacionadas deve ser mantida. Em alguns casos, pode ser interessante manter uma delas se ela tiver uma relação mais direta com a variável dependente. Mas é sempre importante avaliar com cautela para não comprometer a qualidade do modelo.

Espero ter esclarecido sua dúvida.

Qualquer outra questão, compartilhe no fórum.

Abraços.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!