O quanto eu separo para treino e quanto para teste ? o professor utilizou 30% pra teste, existe algum tipo de recomendação para isso ?
O quanto eu separo para treino e quanto para teste ? o professor utilizou 30% pra teste, existe algum tipo de recomendação para isso ?
Olá Gabriela, tudo bem? Espero que sim!
Por padrão, o train_test_split
da biblioteca scikit-learn
utiliza 75% para dados de treino e 25% para os dados de teste. A recomendação é que a base de dados de treinamento seja maior que a base de teste para que exista uma quantidade de dados suficiente para o modelo aprender e que tenha uma quantidade considerável de dados de teste para fazer uma boa validação. Caso tenha poucos dados na base de teste, pode ser que os resultados obtidos na validação não correspondam à realidade, por ter poucos dados para avaliar.
Algo em torno de 70% a 90% para a base de treinamento e 30% a 10% para a base de teste seria recomendável.
Bons estudos!
Muito obrigada pelo esclarecimento!