1
resposta

[Dúvida] Divisão Variáveis TRAIN e TEST

Olá Pessoal, todos e todas bem? Não ficou claro por que eu devo separar as variáveis em TRAIN e TEST? Pq eu não crio o modelo diretamente do banco de dados total? Está separação é necessária para o uso posterior da função PREDICT, onde usarei as variáveis dependentes y_test e y_previsto?

Abs!!

1 resposta

Oi, João tudo bem?

Separar as variáveis em treino (TRAIN) e teste (TEST) é uma prática fundamental em Machine Learning, pois permite avaliar como o modelo se generaliza para novos dados que nunca foram vistos antes.

Quando trabalhamos com Machine Learning o objetivo do modelo é aprender a relação entre as variáveis de entrada (também chamadas de features) e a variável de saída (também chamada de target ou "rótulo") com base nos exemplos de treinamento que foram fornecidos. Se você não separar as variáveis treino e teste, não teremos uma maneira de medir quão bem o modelo se generaliza para novos dados.

Então, ao separar os dados em treino e teste, podemos treinar o modelo com os dados de treino e avaliar sua precisão nos dados de teste. Isso nos dá uma estimativa de quão bem o modelo se sairá em novos dados.