1
resposta

Tamanho do arquivo .csv

Olá, estou com um arquivo .csv que tem 725MB de tamanho. Quando tento carregar o mesmo para fazer análises está travando o computador. Depois de um tempo ele abre, mas o computador fica extremamente lento mesmo após o carregamento do arquivo. Existe uma forma de trabalhar esse arquivo ou talvez converter para outro formato? Alguma dica de como resolver este problema?

1 resposta

Dica, use o Colaboratory (Colab) do Google. Ele te dá um espaço de aproximadamente 70GB para trabalhar, em geral é bem mais rápido do que rodar local.

Por incrível que possa parecer 725MB não é nada fora do comum, a questão começa quando entre o GB na parada. Em algum momento tive problemas com arquivos maiores e descobri o parâmetro chunksize.

Não sou grande especialista no assunto, mas ele faz melhor uso da memória para a leitura dos dados do dataset otmizando as suas tarefas. Deve ficar algo assim:

df = pd.read_csv('data.csv', chunksize=100000) 

Achei esse post legal comparando os valores do chunksize para você ter uma ideia: http://acepor.github.io/2017/08/03/using-chunksize/