[Dúvida] Dúvida sobre as variáveis

Nailson de Oliveira Batista · 2024-04-09 22:21

Em dado momento o professor faz oque parece ser a seguinte atribuição: ``` train_x, test_x, train_y, test_y = train_test_split(x, y, random_state= SEED, test_size= 0.25) ``` não enten

Olá Nailson!

Essa linha serve para separar os dados que estão em "x" e em "y" nas variáveis de treino e teste.

Por exemplo, suponha que sua base de dados tem 10 valores para x e para y. Assim, é preciso que vc separe uma parte dessa base de dados pra ensinar seu modelo como prever. A outra parte dos dados você quer usar pra testar se seu modelo é bom. (É como se a gente pegasse uma parte dos dados para estudar para uma prova e depois realmente fizesse a prova).

O parâmetro "test_size" vai definir o tamanho da base que você quer usar para testar (fazer a prova). Considerando o exemplo da base de 10 valores, e supondo um "test_size" igual a 0.2, significa que 20% da sua base seria usada para testar o modelo.

Assim, 8 registros seriam utilizados para treinar o modelo (estudar a prova) e 2 registros seriam utilizados para testar o modelo (fazer a prova).

Por fim, o parâmetro random_state é utilizado para separar aleatoriamente quais serão os registros da base que farão parte do treino e quais farão parte do teste.

ou seja:

train_x = receberá 8 valores da variável x teste_x = receberá 2 valores da variável x train_y = receberá 8 valores da variável y teste_y = receberá 8 valores da variável y.

Espero ter ajudado.

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP