Escolha de bibliotecadas para o DataFrame | Spark: trabalhando com regressão

Olá, Sthefanie, tudo bem?

Tanto Pandas quanto Spark trabalham com DataFrames, mas cada um é mais indicado em situações diferentes:

Pandas funciona em memória (RAM) e é muito utilizada para análises exploratórias, criação rápida de DataFrames e manipulação de conjuntos de dados que cabem na máquina. No Colab, é super prático para começar, porque tudo roda localmente dentro do notebook.
Spark, por outro lado, é pensado para grandes volumes de dados e para rodar em paralelo, distribuindo as operações. Mesmo no Colab, onde ele roda em “modo local”, já ajuda quando o pipeline fica mais pesado ou quando queremos usar recursos do Spark MLlib para machine learning.

Por isso, no curso você viu primeiro Pandas (para exploração inicial e correlação, mais simples e direto) e depois Spark (na parte de otimização e previsão, onde o foco é escalabilidade e eficiência).

Assim, não é que um substitua o outro: eles se complementam. Você pode começar com Pandas para entender e explorar os dados, e depois migrar para Spark quando precisar de mais performance ou for preparar o pipeline de previsão.

Espero ter esclarecido!

Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!