Ei, Estudante! Tudo bem?
Obrigada por trazer essa dúvida, com certeza ajudará outros colegas também.
A correta é:
X_train, X_test, y_train, y_test
Aqui, X representa suas features (variáveis independentes) e y representa seus labels (variáveis dependentes). Após a divisão, você terá:
X_train: features para o conjunto de treinamentoX_test: features para o conjunto de testey_train: labels para o conjunto de treinamentoy_test: labels para o conjunto de teste
Se você quiser dividir ainda mais os dados de treinamento em conjuntos de treinamento e validação, pode usar novamente o train_test_split no conjunto de treinamento. Por exemplo:
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, random_state=42)
Neste caso, X_val e y_val são os dados de validação. A proporção de 0.25 aqui é apenas um exemplo, e você pode ajustá-la conforme necessário.
Conteúdo relacionado - Documentação oficial Scikit-Learn
Espero ter ajudado e qualquer dúvida, conte conosco aqui no fórum.
Até mais!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado!