Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

Porque selecionou todas as variáveis nesse projeto

Entendo que quanto mais variáveis forem selecionadas, maior o R² nesse caso pelo que eu entendi e há sistemas onde isso é "freado". Numa primeira hipótese pensei em utilizar apenas "andares" e "mármore" pois ambos apresentavam maior correlação. A ideia é sempre ir testando todas e ver qual é melhor? Sempre inicio o projeto usando todas e vou retirando as de menor correlação?

2 respostas
solução!

Vamos ver se posso ajudar.

Sobre a 1ª pergunta, dificilmente você irá testar uma por uma, mas "nada impede". Existe o método Stepwise, que é um método de seleção de variáveis, ele meio que segue essa lógica de testar, mas ele não é muito usado e tem outros caminhos para selecionar.

Se não tem modelo teórico como referência quando estiver modelando (pois, se tiver, saberá quais variáveis usar), você pode utilizar algum método de seleção de variáveis ou usar algum método robusto a utilização de variáveis ruins.

Para a 2ª pergunta, depende da metodologia/abordagem que você usar na modelagem e qual é o problema de interesse. A depender, pode até ser usado todas as variáveis.

Ex: Se eu puder usar todas as variáveis, posso usar algum método com seleção de variáveis, como Elastic Net ou Lasso, contornando o problema de não selecionar as variáveis previamente.

Fala Lucas, muito obrigado pela resposta, foi bem esclarecedor.

Vou dar uma olhada nesses métodos de seleção que você citou e dar uma aprofundada no assunto.

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software