Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

[Dúvida] StatsModels ou ScikitLearn

Olá!

Nesse curso, é mostrado como fazer uso das ferramentas do Scikit Learn para predizer o valor de casas, a depender da quantidade de vagas na garagem, disponibilidade de lareira, acabemento em mármore etc. No curso anterior a esse (na formação de estatística com python), todavia, é ensinado a fazer uso das ferramentas do StatsModels.api para o mesmo fim.

Tendo isso em vista, apliquei ambos os métodos nos dados desse curso, e vi que eles tinham resultados um pouco diferentes devido ao fato do Scikit separar parte do dataset para treino, e o StatsModels usar o dataset inteiro para a predição.

Portanto, gostaria de saber qual o melhor, ou mais recomendado na prática diária, pois preferi muito mais o ferramental disponibilizado pelo StatsModels.

Desde já, obrigado!

1 resposta
solução!

Olá, Paulo!

Na prática, o ideal é aprender a usar as duas bibliotecas, pois elas tem ferramentas diferentes. Em relação à regressão linear você está certo. A Statsmodels tem mais recursos para que você possa verificar se teve um bom ajuste. Por outro lado, se você for utilizar os coeficientes obtidos na regressão para previsão, é sempre importante dividir os dados em treino e teste, mesmo que a ferramenta não ofereça esse recurso. A Statsmodels não oferece esse recurso porque o foco é outro. O objetivo é a análise estatística e determinar se uma reta se adequa ao conjunto de dados completo. Já a sklearn foca dividir em treino e teste porque além de fazer essa verificação a ideia é usar o modelo treinado para prever valores que não fazem parte do conjunto de treino. Essa divisão em treino e teste é importante para ver se o modelo está conseguindo prever bem dados que não conhece, os dados de teste.