Fiquei com uma dúvida sobre a divisão nas variáveis, como a função sabe qual variável vai receber dados de teste e qual vai receber dados de treino?
Fiquei com uma dúvida sobre a divisão nas variáveis, como a função sabe qual variável vai receber dados de teste e qual vai receber dados de treino?
Oii, Caíque! Tudo joia?
Na aula "Divisão e treino de teste", a função sabe qual variável vai receber os dados de teste e qual vai receber os dados de treino através dos parâmetros que você passa para ela.
Quando você utiliza a função train_test_split
do scikit-learn
, você precisa passar as variáveis que contêm os dados que serão divididos, assim como a proporção que você deseja para a divisão.
Para exemplificar, imagine que você está treinando estudantes para resolver problemas de matemática. Você divide seus problemas em dois conjuntos: um para treinamento e outro para teste. Os problemas de treinamento são usados para ensinar conceitos, enquanto os de teste são reservados para avaliar o desempenho em novos desafios.
A função train_test_split
é como a ferramenta que divide esses conjuntos, e os parâmetros, como test_size
e random_state
, permitem controlar a proporção e a consistência na avaliação, o que garante resultados comparáveis ao longo do tempo.
Espero ter ajudado. Qualquer dúvida, compartilhe no fórum para podermos te ajudar.
Bons estudos, Caíque!
A função train_test_split retorna uma lista com 4 itens: na primeira posição há o conjunto de dados de x separados para treino, na segunda há o conjunto de x separado para teste, na terceira o de y para treino e na quarta o de y para teste. Quando você passa 4 variáveis e atribui a função, o Python entende que o resultado da função (que é a lista com 4 itens) deve ser atribuído a cada variável respectivamente. Então a primeira variável recebe os elementos da primeira posição da lista, a segunda variável recebe os elementos da segunda posição e assim por diante.