Oiê, tudo bem?
Desculpe a demora em te responder.
Excelente questionamento! Tanto o Statsmodels quanto o Scikit-learn são bibliotecas extremamente úteis para análise de dados, mas seus objetivos podem variar um pouco. Durante o curso, buscamos explorar essas duas ferramentas para construir uma visão mais ampla acerca da regressão linear.
No entanto, de maneira geral, essa escolha ocorre porque Statsmodels é mais adequado para análise explicativa. Com o Scikit-learn e com o auxílio de outras ferramentas, também é possível realizar esses testes, mas às vezes de maneira não tão intuitiva — o foco principal desta segunda biblioteca é, na realidade, a realização de testes, treinos e previsões.
Escolher como iremos realizar a modelagem e quais ferramentas serão usadas depende bastante dos nossos objetivos. Abaixo trago alguns pontos interessantes acerca dessas duas bibliotecas:
O Scikit-learn é mais rápido em regressões lineares, sendo que a diferença é mais nítida em conjuntos de dados maiores;
Empregando apenas um único núcleo, o Statsmodels é mais rápido na regressão logística;
Com Statsmodels, temos uma saída detalhada com informações estatísticas, p-valores, intervalos de confiança e medidas de ajuste, por exemplo;
O Scikit-learn oferece vários algoritmos de aprendizado de máquina, como SVM, árvores de decisão e redes neurais.
Espero ter ajudado com a explicação!
Um abraço.
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!