Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

treinamento do modelo

pessoal, no exemplo final tem poucas variaveis explicativas, então na hora de criar o X, ele cria junto como todas as outra variáveis do dataset, como será mostrado a seguir: X = dados[['area','garagem', 'banheiros', 'lareira', 'marmore', 'andares']] Caso eu tenha um dataframe, na qual a quantidade de variáveis explicativas seja maior e que tabém tenha uma correlação, eu colocaria todas elas também?

desde já agradeço a compreensão.

1 resposta
solução!

Oi, Ronaldd! Tudo bem por aí?

Sim! Você pode incluir todas as variáveis explicativas que tenham uma correlação significativa com a variável dependente. Lembrando que é importante considerar alguns pontos:

  • A correlação entre variáveis explicativas e a variável dependente é apenas um dos critérios para a seleção de variáveis.

Outros critérios incluem a relevância teórica das variáveis, a disponibilidade de dados e a complexidade computacional.

  • A inclusão de muitas variáveis explicativas pode levar a um fenômeno conhecido como multicolinearidade, que é quando as variáveis explicativas estão altamente correlacionadas entre si.

Isso pode tornar os coeficientes de regressão instáveis e difíceis de interpretar.

  • A inclusão de muitas variáveis explicativas pode levar ao overfitting, que é quando o modelo se ajusta muito bem aos dados de treinamento, mas não generaliza bem para novos dados.

Uma abordagem comum é começar com um modelo simples com poucas variáveis explicativas e, em seguida, adicionar mais variáveis explicativas de forma iterativa, avaliando o impacto de cada adição no desempenho do modelo.

Existem também técnicas de seleção de variáveis, como a eliminação para trás (backward elimination) e a seleção para frente (forward selection), que podem ajudar a determinar quais variáveis incluir no modelo. ^_^

Se outra dúvida surgir, estamos aqui.

Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.