1
resposta

[Dúvida] Dúvida sobre as variáveis

Em dado momento o professor faz oque parece ser a seguinte atribuição:

train_x, test_x, train_y, test_y = train_test_split(x, y, random_state= SEED, test_size= 0.25)

não entendi ao certo oque está ocorrendo aqui, todas as váriaveis (train_x, test_x, train_y, test_y) estão recendo um novo valor( o mesmo?) do resultado da linha abaixo?

train_test_split(x, y, random_state= SEED, test_size= 0.25)

alguém consegue me explicar? além disso, oq resultaria se a linha de código fosse apenas, pergunto pois a unica coisa q notei foi uma leve diferenca no accuracy

train_test_split(x, y, random_state= SEED, test_size= 0.25)
1 resposta

Olá Nailson!

Essa linha serve para separar os dados que estão em "x" e em "y" nas variáveis de treino e teste.

Por exemplo, suponha que sua base de dados tem 10 valores para x e para y. Assim, é preciso que vc separe uma parte dessa base de dados pra ensinar seu modelo como prever. A outra parte dos dados você quer usar pra testar se seu modelo é bom. (É como se a gente pegasse uma parte dos dados para estudar para uma prova e depois realmente fizesse a prova).

O parâmetro "test_size" vai definir o tamanho da base que você quer usar para testar (fazer a prova). Considerando o exemplo da base de 10 valores, e supondo um "test_size" igual a 0.2, significa que 20% da sua base seria usada para testar o modelo.

Assim, 8 registros seriam utilizados para treinar o modelo (estudar a prova) e 2 registros seriam utilizados para testar o modelo (fazer a prova).

Por fim, o parâmetro random_state é utilizado para separar aleatoriamente quais serão os registros da base que farão parte do treino e quais farão parte do teste.

ou seja:

train_x = receberá 8 valores da variável x teste_x = receberá 2 valores da variável x train_y = receberá 8 valores da variável y teste_y = receberá 8 valores da variável y.

Espero ter ajudado.