1
resposta

Machine Learning: classificação por trás dos panos

Boa tarde! Gostaria de tirar uma dúvida, eu reparei que no andamento do curso o y_treino ficou o comprimento original dos dados, o correto não seria os 30% indicado:"X_treino, X_teste, y_treino, y_teste = train_test_split(X_normalizado, y, test_size=0.3, random_state=123)"

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

1 resposta

Olá, Felipe! Tudo bem com você?

A base de dados inicial é uma base desbalanceada, que quando levamos para modelos de machine learning introduzem vieses, portanto temos que realizar o balanceamento. No faça como eu fiz "dados desbalanceados" realizamos esse balanceamento e salvamos em uma variável chamada dados_final, portanto nossa base de dados agora possui:

0    5174
1    5174

Totalizando 10348 amostras. Quando separamos 30% para teste e 70% para treino obtemos 0.7 * 10348 = 7243 amostras para treino, que é o que você encontrou.

Você pode conferir com mais detalhes todos os passos adotados no GitHub com essa aula, que está disponível nesse link.

Caso ainda possua alguma dúvida pode nos retornar por aqui mesmo.

Abraços.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!