1
resposta

Duvida teorica: por que nao usar todo conjunto de dados?

Olá,

  1. Por que separar os dados em conjuntos de treino e teste?
  2. Não seria mais fácil e robusto usar todo o conjunto de dados, fazer a regressão e depois comparar os valores previstos com os valores reais? Por exemplo, temos os dados reais de valor e distancias, entao fazemos previsoes dos valores para cada linha do dataset e comparamos as com os dados reais e podemos plotar isso, assim em cada linha teriamos um Valor_previsto vs Valor_real. Caso tenhamos novos dados de distancia poderemos predizer o valor do imovel com o nosso modelo com uma margem de erro.

Obrigado

1 resposta

Olá Marcelo, se tu usar TODOS os dados para treino e formos depois calcular uma precisao de 80%, estes 80% seriam para os dados de treino apenas, não teria-se uma análise se houve ou não, um overfit/underfit no modelo, por isso, separa-se em 2 dados: teste e treino, treina com os dados de treina e verifica a precisao com os dados de teste, pois ai será a precisão REAL do modelo e não a precisão do modelo sobre o dados de teste.