Olá a todos! No estudo de regressão linear (simples ou múltipla) existem algumas premissas : O relacionamento entre a variável dependente e independente devem ser linear; Não deve haver correlação entre as variáveis independentes; Os resíduos devem ter uma distribuição normal; Os resíduos devem ter variância constante (homocedasticidade); Os resíduos não devem apresentar outo-correlação. Além do diagnóstico para o modelo!
Entendo que numa turma, de início é ensinado a regressão linear conforme livros e uso de software dando seu resultado!
Minha dúvida: quando tiver um trabalho para ser empregado regressão linear e dependendo do valor de N ( número de linhas), vc faz a predição pelo método dos Estatísticos ou pela vertente de Data Science que separa por treino e teste? Outra dúvida: Parece que por trás de algoritmo de Machine Learning, pela evidência de se trabalhar com mais dados, os pressupostos não são inseridos. E sim uma função de custo/ gradiente descendente para se achar menores erros para se ter melhor modelo. Então a predição da regressão através de ML é melhor?