porque nesse projeto é suficiente a divisão 80% - 20% entre treino e teste?
porque nesse projeto é suficiente a divisão 80% - 20% entre treino e teste?
Olá Danilo, tudo bem?
A escolha de dividir os dados em 80% para treino e 20% para teste é uma prática comum em muitos projetos de machine learning. Essa proporção é geralmente utilizada porque oferece um bom equilíbrio entre ter dados suficientes para treinar o modelo e ainda reservar uma quantidade significativa de dados para testar a sua performance.
Ao usar 80% dos dados para treino, você garante que o modelo tem uma quantidade robusta de dados para aprender os padrões subjacentes. Os 20% restantes são utilizados para avaliar o desempenho do modelo em dados que ele não viu durante o treinamento, o que é importante para entender como ele pode performar em situações reais.
Claro, essa proporção não é uma regra rígida. Dependendo do tamanho do seu conjunto de dados e do problema específico, outras divisões podem ser mais apropriadas.
Espero ter esclarecido.
Qualquer dúvida, não hesite em compartilhar no fórum.
Abraços!