Fiquei com uma dúvida sobre a divisão nas variáveis, como a função sabe qual variável vai receber dados de teste e qual vai receber dados de treino?
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
Fiquei com uma dúvida sobre a divisão nas variáveis, como a função sabe qual variável vai receber dados de teste e qual vai receber dados de treino?
Oii, Caíque! Tudo joia?
Na aula "Divisão e treino de teste", a função sabe qual variável vai receber os dados de teste e qual vai receber os dados de treino através dos parâmetros que você passa para ela.
Quando você utiliza a função train_test_split do scikit-learn, você precisa passar as variáveis que contêm os dados que serão divididos, assim como a proporção que você deseja para a divisão.
Para exemplificar, imagine que você está treinando estudantes para resolver problemas de matemática. Você divide seus problemas em dois conjuntos: um para treinamento e outro para teste. Os problemas de treinamento são usados para ensinar conceitos, enquanto os de teste são reservados para avaliar o desempenho em novos desafios.
A função train_test_split é como a ferramenta que divide esses conjuntos, e os parâmetros, como test_size e random_state, permitem controlar a proporção e a consistência na avaliação, o que garante resultados comparáveis ao longo do tempo.
Espero ter ajudado. Qualquer dúvida, compartilhe no fórum para podermos te ajudar.
Bons estudos, Caíque!
A função train_test_split retorna uma lista com 4 itens: na primeira posição há o conjunto de dados de x separados para treino, na segunda há o conjunto de x separado para teste, na terceira o de y para treino e na quarta o de y para teste. Quando você passa 4 variáveis e atribui a função, o Python entende que o resultado da função (que é a lista com 4 itens) deve ser atribuído a cada variável respectivamente. Então a primeira variável recebe os elementos da primeira posição da lista, a segunda variável recebe os elementos da segunda posição e assim por diante.