DÚVIDA SOBRE A DIVISÃO DOS DADOS PARA TREINAMENTO E TESTE

ISABELA PRIMO MARQUES MORETTI PEREIRA · 2026-01-26 11:48

Olá, bom dia. Sempre fico em dúvida em relação a divisão dos dados, com o train_test_split. Como que deve ser: X_train,X_test, y_train, y_test ou X_train, y_train, X_test,y_test <br

Ei, Estudante! Tudo bem?

Obrigada por trazer essa dúvida, com certeza ajudará outros colegas também.

A correta é:

X_train, X_test, y_train, y_test

Aqui, X representa suas features (variáveis independentes) e y representa seus labels (variáveis dependentes). Após a divisão, você terá:

X_train: features para o conjunto de treinamento
X_test: features para o conjunto de teste
y_train: labels para o conjunto de treinamento
y_test: labels para o conjunto de teste

Se você quiser dividir ainda mais os dados de treinamento em conjuntos de treinamento e validação, pode usar novamente o train_test_split no conjunto de treinamento. Por exemplo:

X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, random_state=42)

Neste caso, X_val e y_val são os dados de validação. A proporção de 0.25 aqui é apenas um exemplo, e você pode ajustá-la conforme necessário.

Conteúdo relacionado - Documentação oficial Scikit-Learn

`train_test_split` / Scikit-learn

Espero ter ajudado e qualquer dúvida, conte conosco aqui no fórum.

Até mais!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP