Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

Treino e Teste

Qual a utilidade prática de criarmos esses df diferentes?

2 respostas
solução!

Oii Gabriel, tudo bem?

Quando fazemos um projeto que envolva aprendizado de máquina, precisamos ter esses dois datasets diferentes para que o modelo aprenda com uma parte e teste com outra, para que nos seja dado o valor de quanto, em porcentagem, o modelo acertou na regressão. Se não fizessemos isso, o modelo aprenderia e testaria com os mesmos dados, e se fossem colocado dados totalmente diferentes posteriormente, teria um resultado péssimo, já que ela seria ótima em saber os dados que já conhecia previamente, mas não é boa pra novos dados, chamamos isso de overfitting.

Basicamente é para isso que fazemos essa divisão! Se ainda tiver dúvidas, pode me chamar, ok?

Bons estudos ^^

Obrigado pela resposta Sthephanie. Mas eu continuo com uma dúvida conceitual.

Mas ao reduzir a amostra e selecionar esse subconjunto você perde observações e consequentemente os resultados achados com o subconjunto menor sao menos robustos. Não entendi muito bem, geralmente faço regressões no Stata e nunca separei a amostra em subconjuntos. Se rodamos uma regressão com variavéis explicativas escolhidas a partir da teoria e obtemos um bom modelo, ao usar um novo conjunto de dados das mesmas variaveis (e.g. atualizacao dos dados para um novo ano) você junta-as ao modelo anterior e usa técnica de painel data para atenuar efeitos do tempo. Contudo, não sei de machine learning e devo estar falando algo não relacionado ou errado.