1
resposta

Escolha de bibliotecadas para o DataFrame

Fiquei com uma dúvida em relação a escolha de bibliotecas para criação de DataFrames, no início do curso, ainda na fase da análise exploratória, foi utilizado o Pandas para criação do DataFrame de correlação. No entanto, agora na aula de ferramentas de otimização, para prever os resultados de meu_imovel foi utilizada a Spark, existe alguma diferença na utilização dessas bibliotecadas para criação de DataFrame?

1 resposta

Olá, Sthefanie, tudo bem?

Tanto Pandas quanto Spark trabalham com DataFrames, mas cada um é mais indicado em situações diferentes:

  • Pandas funciona em memória (RAM) e é muito utilizada para análises exploratórias, criação rápida de DataFrames e manipulação de conjuntos de dados que cabem na máquina. No Colab, é super prático para começar, porque tudo roda localmente dentro do notebook.

  • Spark, por outro lado, é pensado para grandes volumes de dados e para rodar em paralelo, distribuindo as operações. Mesmo no Colab, onde ele roda em “modo local”, já ajuda quando o pipeline fica mais pesado ou quando queremos usar recursos do Spark MLlib para machine learning.

Por isso, no curso você viu primeiro Pandas (para exploração inicial e correlação, mais simples e direto) e depois Spark (na parte de otimização e previsão, onde o foco é escalabilidade e eficiência).

Assim, não é que um substitua o outro: eles se complementam. Você pode começar com Pandas para entender e explorar os dados, e depois migrar para Spark quando precisar de mais performance ou for preparar o pipeline de previsão.

Espero ter esclarecido!

Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!