1
resposta

[Dúvida] training_data e test_data com as classes Dataset e DataLoader - Separando os dois datasets

Fiquei em dúvida sobre como devo realizar a separação entre o dataset de treino e teste.

No vídeo a Camila separa o DataFrame original em dois: treino e teste, porém eu não achei tão agradável realizar da forma apresentada.

Consigo separar o DataFrame através do SKLearn e importar como dataset pelo DataLoader? quais cuidados adicionais devo tomar se eu escolher esse caminho?

1 resposta

Olá Yan, tudo bem? Espero que sim!

Como o treinamento é feito pelo pytorch, é recomendado que utilize a própria ferramenta para fazer a separação nos dados. Existe uma função chamada random_split da biblioteca pytorch para fazer essa separação, que você pode conferir na documentação: https://pytorch.org/docs/stable/data.html#torch.utils.data.random_split

De toda forma, como é uma divisão de dados, daria também para usar a biblioteca sklearn, mas a pytorch já oferece essa função e em um projeto não seria necessário instalar e utilizar a sklearn somente para essa função específica.

Bons estudos!