0
respostas

Solução do professor não utilizou 25% para vlidação

Pessoal, só pra eu entender, me parece que a solução do exercício não atendeu ao critério do enunciado abaixo:

2.Uma etapa muito importante em projetos de classificação é a validação dos modelos, para identificar se está havendo a generalização do modelo para dados novos. Realize a divisão dos dados entre treino, validação e teste. Utilize 5% dos dados para teste e com o restante**, deixe 25% para validação. No momento da separação, use o parâmetro stratify a partir da variável alvo para manter a proporção dos dados.**

O correto seria fazer o seguinte?
X, X_test, y, y_test = train_test_split(X, y, stratify=y, random_state=5, test_size=0.05)
X_train, X_val, y_train, y_val = train_test_split(X,y,stratify=y,random_state=5, test_size=0.25)

Obrigado