1
resposta

Como "misturar" os meus dados

Estou tentando criar um programinha de deep learning, tudo está rodando perfeitamente.

O problema é que meus dados estão ordenados de maneira que a primeira metade do meu array tem uma classificação e a outra metade tem outra classificação. Se eu entendi direito, ao usar validation_split = 0.2, os ultimos 20% dos meus dados serão usados para validação, mas devido a forma como estão ordenados todos esses 20% terão a mesma classificação, o que não me parece uma boa ideia.

Há alguma maneira simples de eu "misturar" os meus dados e mantê-los com as marcações/classificações corretas, de maneira que ao usar o validation_split eu pegue dados com classificações diferentes para validação?

1 resposta

Olá Eryk.

Uma opção que encontrei foi utilizando o train_test_split do sklearn.

from sklearn.model_selection import train_test_split
# X seus dados
# Y suas classificações
SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(X, Y, random_state = SEED, test_size = 0.25)

Você deve importar o train_test_split e utilizar ele colocando seus dados e classificação e escolher o tamanho do seu teste.

Desse jeito seus dados não vão ficar mais ordenados, mais detalhes pode encontrar na documentação.

Testei no exemplo da instrutora e funcionou corretamente.

Espero ter ajudado, bons estudos.