Eu estou fazendo a fromação completa de Data Science e nesse curso não foi usado o test_size, como em outros, qual o motivo disso?
Eu estou fazendo a fromação completa de Data Science e nesse curso não foi usado o test_size, como em outros, qual o motivo disso?
Oi William, tudo bem?
Notei que na aula Divisão de treino e teste a separação dos dados foi feita utilizando a função train_test_split. Como o parâmetro test_size não foi definido explicitamente, o scikit-learn utiliza o valor padrão, que corresponde a 25% dos dados para teste e 75% para treino.
Nesse ponto do curso, o objetivo não era discutir a proporção da divisão, mas sim reforçar o conceito de separar dados de treino e teste, além de destacar o uso do stratify=y, que mantém a proporção das classes nos dois conjuntos, e do random_state, que garante a reprodutibilidade dos resultados.
Ou seja, o test_size não foi informado explicitamente, mas continua sendo aplicado por padrão. Esse parâmetro não é obrigatório e só precisa ser definido quando queremos alterar essa proporção ou deixar o código mais explícito.
Espero ter ajudado.
Qualquer dúvida que surgir, fique à vontade para compartilhar no fórum.
Abraços e bons estudos!