Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

[Sugestão] Arquivos muito grande GB ou além da memória disponível

Parquet e Feather: Sempre que possível, prefira formatos binários colunares (Parquet, Feather ou IPC) em vez de CSV/Excel. Eles preservam o "schema" (tipos de dados) e ocupam muito menos espaço em disco, além de permitirem leitura parcial dos dados.

Performance:
Pandas: Eficiente para dados estruturados em memória, sua limitação maior é o limite de memóra disponível.
Polars geralmente supera o Pandas devido à sua arquitetura baseada em Apache Arrow, é veloz e eficiente no uso da memória de grandes datasets em uma única máquina.
Spark deve ser utilizado quando os dados não cabem na memória da sua máquina, vai usar computação distribuida, escolha para Big Data (Clusters).

2 respostas
solução!

Ei! Tudo bem, Marcelo?

Excelente contribuição sobre manipulação de arquivos grandes e alternativas para quando os dados superam a memória disponível no Pandas! Esse é um assunto super avançado e de extrema importância no dia a dia da ciência de dados.

Adicionar formatos colunares e bibliotecas modernas à discussão expande demais o horizonte de quem está lidando com bases de dados massivas. Muito obrigado por compartilhar essa visão madura e atualizada com a nossa comunidade de tecnologia!

Pensando em grandes volumes no Pandas, você já chegou a explorar o parâmetro chunksize na leitura de arquivos enormes ou prefere migrar direto para o Polars quando a memória aperta?

Conteúdos para complementar seus estudos
Esse conteúdo pode estar em inglês, para traduzi-lo utilize o tradutor automático do navegador ou clique com o botão direito do mouse sobre a página e selecione a opção Traduzir para o português.
Alura Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

Prefiro usar o recurso disponível rsrrssrsr