Oi, Mariana, tudo bem?
Na primeira linha, estamos separando 15% dos dados para o conjunto de teste. Ou seja, dos dados originais, 15% vão para x_teste
e y_teste
, enquanto os 85% restantes permanecem em x
e y
, que serão usados na próxima divisão (treino e validação).
Na segunda linha, dividimos esses 85% restantes entre treinamento e validação. Essa etapa é importante para ajustar e avaliar o desempenho do modelo ao longo do processo de desenvolvimento, sem utilizar os dados de teste, que devem ser reservados para a avaliação final.
A função train_test_split
foi usada duas vezes:
Primeira divisão – separa 15% dos dados para teste:
x, x_teste, y, y_teste = train_test_split(x, y, test_size=0.15, stratify=y, random_state=5)
Segunda divisão – divide os 85% restantes entre treino e validação:
x_treino, x_val, y_treino, y_val = train_test_split(x, y, stratify=y, random_state=5)
Na segunda chamada da função, como não foi especificado o parâmetro test_size
, ela usa o valor padrão (test_size=0.25
). Compartilho a documentação onde tem essa informação. Assim, os dados remanescentes (85%) são divididos em:
Conjunto | Cálculo | Porcentagem dos dados originais |
---|
Validação | 25% de 85% → 0.25 × 0.85 | 21,25% |
Treinamento | 75% de 85% → 0.75 × 0.85 | 63,75% |
Portanto, ao final, temos aproximadamente 63,75% dos dados para treino, 21,25% para validação e 15% para teste.
Espero ter ajudado.
Qualquer dúvida, compartilhe no fórum.
Abraços e bons estudos!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!