No começo, eu esperava que estaríamos encontrando as variáveis mais correlacionadas para eliminá-las, mas não todas elas. Afinal, correlação é uma relação de dois lados: não existe apenas uma variável altamente correlacionada sem outra, certo?
Eu imaginava assim: se temos duas variáveis A e B altamente correlacionadas, isso significaria que, já que ambas crescem/diminuem juntas e na mesma proporção, só precisaríamos de uma delas para as nossas previsões, já que a outra estaria influenciando igualmente nos resultados.
Dito isso, por que não eliminamos somente uma delas (ou uma de cada par)? Qual a razão de eliminarmos todas?
Eu li algumas das respostas aqui no fórum, mas a explicação de que o modelo daria peso demais para elas não me pareceu fazer muito sentido.
Obrigado!