Parquet e Feather: Sempre que possível, prefira formatos binários colunares (Parquet, Feather ou IPC) em vez de CSV/Excel. Eles preservam o "schema" (tipos de dados) e ocupam muito menos espaço em disco, além de permitirem leitura parcial dos dados.
Performance:
Pandas: Eficiente para dados estruturados em memória, sua limitação maior é o limite de memóra disponível.
Polars geralmente supera o Pandas devido à sua arquitetura baseada em Apache Arrow, é veloz e eficiente no uso da memória de grandes datasets em uma única máquina.
Spark deve ser utilizado quando os dados não cabem na memória da sua máquina, vai usar computação distribuida, escolha para Big Data (Clusters).