1
resposta

Projeto Machine Leaning - Dropar linhas com dados irrelevantes

Pessoal, após fazer a leitura dos dados, o projeto pede para que retiremos as linhas sem valores, NaN, já que as mesmas não tem relevancia para a analise de dados.

Para retirar as linhas com "valores" NaN, eu estou setando o index da primeira coluna "NU_NOTA_CH".

Mas ao usar o comando: enem = enem.set_intex("NU_NOTA_CH")

Me é retornado o seguinte erro:

"Traceback (most recent call last):

numpy.core._exceptions.MemoryError: Unable to allocate array with shape (9, 6731341) and data type float64"

Alguma dica de como prosseguir?

1 resposta

Oii Pablo, como você está?

Peço perdão pela imensa demora em retornar.

Não sei como você fez os passos anteriores, mas segundo o log de erro, isso está ocorrendo por um problema de memória e há até algumas discussões no github dizendo que isso se trata de um problema do sistema em não conseguir alocar memória para todos os dados. Mas de todo modo, uma forma de resolver esse problema específico do projeto, é utilizar a função dropna responsável por eliminar valores ausentes do dataframe, como mostro abaixo:

Imagem que mostra uma forma de dropar as linhas NaN utilizando o dropna

Também deixo neste link o projeto completo de Machine Learning feito por um dos instrutores da plataforma.

Qualquer dúvida fico à disposição.

Abraços e bons estudos!