Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Arquivos demoram muito para carregar +40min e não carregam

Estou usando o Jupyter no VS Code. Fiz todos os passos corretamente e não consegui carregar todos os arquivos usando a função spark.read.csv(). Tentei de várias formas:

./.../part-0000?-58983ad4-8444-4405-aec6-9cd3e5413d1b-c000.csv ./.../* ./.../*.zip

Não indica nenhum erro, só demora muito para carregar e não carrega.

Versão Python: 3.9.15 Versão Java: 17.0.3 LTS Zulu17.34+19CA Versão Spark: 3.3.1 Versão Hadoop: 3

1 resposta
solução!

Tive que refazer todo o processo e alterei a versão do Hadoop para o indicado no vídeo. Mantive a versão do Python e do Java que já estavam instaladas em minha máquina.

E no processo de adicionar as variáveis de ambiente fiz da seguinte forma:

Variáveis de usuários para {user}:

  • Criei: HADOOP_HOME e indiquei para: %SPARK_HOME%\hadoop
  • Criei: SPARK_HOME e indiquei para: C:\spark\spark-3.3.1-bin-hadoop2
  • Adicionei no path: %SPARK_HOME%\bin e %HADOOP_HOME%\bin

Variáveis do sistema:

  • Adicionei no path: C:\spark\spark-3.3.1-bin-hadoop2\bin