Solucionado (ver solução)
Solucionado
(ver solução)
3
respostas

Exercicio de regressão

Boa tarde. Em relação ao exercício proposto, rodei paralelamente dois modelos, um com a variável área, e outro não. Desde o inicio, pelo método corr(), percebi que havia pouca relação entre a variável área e a variável dependente, por isso resolvi rodar os dois e ver a diferença. No score() do primeiro o valor foi 0.65, na metrics o resultado se repetiu. No score() do segundo o valor foi 0.63, na metrics o resultado se repetiu. No final, nas métricas EQM e REQM os valores do primeiro foram: 47204482.34, 6870.55 No final, nas métricas EQM e REQM os valores do primeiro foram: 48966307.73, 6997.59 Os valores do segundo foram levemente piores, subtraindo as duas métricas(1º - 2º), gerou: -1761825.39, -127.04(não sei interpretar se esse valor é muito grande para esse conjunto)

A minha dúvida é: Se eu estivesse rodando um teste que demande alta precisão, acho que independente do resultado de performace(extrapolando para um espaço amostral muito maior) ficaria com o primeiro, mas se minha aplicação não visasse tanta precisão, essa diferença de acurácia geraria impactos significativos na performace? Demandaria um hardware muito melhor?

grato

3 respostas

Olá Danival, tudo bem? Espero que sim!

No caso em questão, apenas uma única variável a mais no modelo não interfere tanto na performance, o modelo com a presença da variável área explica melhor o comportamento da variável dependente e possui um erro menor em relação aos dados reais, portanto seria mais interessante o uso dessa variável.

O impacto seria muito grande na performance caso você tenha um conjunto de dados muito grande, com centenas de variáveis e seria importante a escolha de um número menor de variáveis caso não influenciasse tanto no erro e na explicação da variável dependente.

Bons estudos!

Para lidar com isso por exemplo, poderia remover os outliers? Ou para esse tipo de estudo eles são importantes?

solução!

Olá Danival,

Remover ou manter os outliers não interfere diretamente na questão acima.

Mas removendo os outliers, na maioria das vezes faria com que seu modelo se adequasse melhor para a maior parte dos dados, mas errasse ainda mais para uma parcela pequena dos seus dados, que no caso são os outliers. O melhor a se fazer é experimentar e comparar a performance entre diferentes modelos, um com a presença de outliers e outro sem a presença de outliers e verificar qual performa melhor.

Bons estudos!