Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Como carregar muitos arquivos no tensorflow

Boa noite,

Estou tentando carregar um dataset que está em .tar.gz, dividido em 5000 pastas de teste e 5000 pastas para treino.

Cada pasta possui 3 arquivos json e um arquivo txt.

Nesse caso, qual seria o método mais recomendado para carregar todos os arquivos em alguma estrutura do tensorflow (sendo todos os arquivos divididos em múltiplas pastas, com 4 arquivos diferentes e dois formatos diferentes)?

Existe algum jeito que não envolva descompactar o .tar inteiro no meu pc?

Enfim, se alguém puder me ajudar, preciso de algum tipo de passo-a-passo para carregar esses dados.

Muito obrigado!

1 resposta
solução!

Oii André, tudo certinho?

Você pode utilizar a biblioteca tarfile dessa forma:

import tarfile

if fname.endswith("tar.gz"):
    tar = tarfile.open(fname, "r:gz")
    tar.extractall()
    tar.close()
elif fname.endswith("tar"):
    tar = tarfile.open(fname, "r:")
    tar.extractall()
    tar.close()

E depois de extrair os arquivos tar, você pode acessar os dados do modelo e carregar eles utilizando o Keras.

Caso essa solução não te ajude a descompactar seus arquivos, você pode tentar dessa outra forma:

path = 'file:///D:/Workspace/DataFiles/tldr.gz'

path_to_downloaded_file = tf.keras.utils.get_file("tldr_data",path, archive_format='tar', untar=True)

Onde path recebe o local que está o seu arquivo e carrega os dados dele.

Espero que tenha te ajudado, e não esqueça de marcar como solução se sim :)

Qualquer outra dúvida, é só chamar. Bons estudos!