Qual a utilidade prática de criarmos esses df diferentes?
Qual a utilidade prática de criarmos esses df diferentes?
Oii Gabriel, tudo bem?
Quando fazemos um projeto que envolva aprendizado de máquina, precisamos ter esses dois datasets diferentes para que o modelo aprenda com uma parte e teste com outra, para que nos seja dado o valor de quanto, em porcentagem, o modelo acertou na regressão. Se não fizessemos isso, o modelo aprenderia e testaria com os mesmos dados, e se fossem colocado dados totalmente diferentes posteriormente, teria um resultado péssimo, já que ela seria ótima em saber os dados que já conhecia previamente, mas não é boa pra novos dados, chamamos isso de overfitting.
Basicamente é para isso que fazemos essa divisão! Se ainda tiver dúvidas, pode me chamar, ok?
Bons estudos ^^
Obrigado pela resposta Sthephanie. Mas eu continuo com uma dúvida conceitual.
Mas ao reduzir a amostra e selecionar esse subconjunto você perde observações e consequentemente os resultados achados com o subconjunto menor sao menos robustos. Não entendi muito bem, geralmente faço regressões no Stata e nunca separei a amostra em subconjuntos. Se rodamos uma regressão com variavéis explicativas escolhidas a partir da teoria e obtemos um bom modelo, ao usar um novo conjunto de dados das mesmas variaveis (e.g. atualizacao dos dados para um novo ano) você junta-as ao modelo anterior e usa técnica de painel data para atenuar efeitos do tempo. Contudo, não sei de machine learning e devo estar falando algo não relacionado ou errado.