Projeto Machine Leaning - Microdados Enem 2017 | Data Science

Solucionado (ver solução)

Solucionado
(ver solução)

2
respostas

por Pablo Henrique Lemes dos Santos

| 161.7k xp | 15 posts

Pessoal estou tentando carregar e ler o arquivo mas sempre me retorna um erro de memoria, acredito que por ser um arquivo demasiadamente grande (mais de 3 gigas).

Até mesmo ao tentar abrir o arquivo com o Excel não consigo ter exito.

Alguma dica?

2 respostas

por André Victor Ruiz Pedroso

| 2102.7k xp | 3838 posts

Moderador

31/07/2019

Oi Pablo tudo bem?

Consegui abrir o arquivo usando o Visual Code (tenho 8GB de mémoria RAM). Delete as linhas a mais que não vai usar então tente novamente abrir o arquivo com seu editor de planilhas favorito.

Espero ter ajudado!!!

solução!

por Pablo Henrique Lemes dos Santos

| 161.7k xp | 15 posts

02/08/2019

André, eu separei as linhas usando chunksize e depois concatenei tudo em um dataframe só.

Dessa forma eu consegui ler o arquivo.

Segue o codigo utilizado:

df_chunk = pd.read_csv("C:/input/MICRODADOS_ENEM_2017.csv", sep=';', encoding='iso-8859-1', usecols=["NU_NOTA_CN","NU_NOTA_CH","NU_NOTA_LC", "NU_NOTA_MT", "NU_NOTA_COMP1", "NU_NOTA_COMP2", "NU_NOTA_COMP3", "NU_NOTA_COMP4", "NU_NOTA_COMP5"], chunksize=5000)

chunk_list = []

for chunk in df_chunk: chunk_list.append(chunk)

enem = pd.concat(chunk_list)