1
resposta

DÚVIDA SOBRE A DIVISÃO DOS DADOS PARA TREINAMENTO E TESTE

Olá, bom dia.
Sempre fico em dúvida em relação a divisão dos dados, com o train_test_split.
Como que deve ser:
X_train,X_test, y_train, y_test
ou
X_train, y_train, X_test,y_test

Pq supondo que x é sempre as features e y é os labels. Ent, a divisão correta seria x_train e y_train (os de treino) e x_test, y_train (os de teste).

e se eu dividisse em mais uma parte os dados de treino para treino e validação, como que ficaria?

Desculpa, mas é algo que está real me confundindo kkk.

1 resposta

Ei, Estudante! Tudo bem?

Obrigada por trazer essa dúvida, com certeza ajudará outros colegas também.

A correta é:

X_train, X_test, y_train, y_test

Aqui, X representa suas features (variáveis independentes) e y representa seus labels (variáveis dependentes). Após a divisão, você terá:

  • X_train: features para o conjunto de treinamento
  • X_test: features para o conjunto de teste
  • y_train: labels para o conjunto de treinamento
  • y_test: labels para o conjunto de teste

Se você quiser dividir ainda mais os dados de treinamento em conjuntos de treinamento e validação, pode usar novamente o train_test_split no conjunto de treinamento. Por exemplo:

X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, random_state=42)

Neste caso, X_val e y_val são os dados de validação. A proporção de 0.25 aqui é apenas um exemplo, e você pode ajustá-la conforme necessário.

Conteúdo relacionado - Documentação oficial Scikit-Learn

Espero ter ajudado e qualquer dúvida, conte conosco aqui no fórum.

Até mais!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado!