1
resposta

[Reclamação] Falha ao importar findspark e dificuldade para rodar spark.

Na aula "Utilizando Spark no Windows" foi passada uma série de informações e links para que pudéssemos rodar o spark e começar com o curso. Por mais que ficaram muitas duvidas na explicação do professor Rodrigo Dias, ainda assim, segui passo a passo do que foi orientado. Porem, não tive sucesso na etapa onde importamos o findspark no novo notebook criado.

Não sei dizer onde pode estar a falha. Pode ser que seja a versão do meu spark, já que a versão apresentada na aula não está mais disponível para download; Pode ser alguma falha no processo de instalação do findspark no CMD, ou uma falha da ativação por parte do meu python 3.11.4; Pode ser que seja a versão do winutils, uma vez que não existe uma versão compatível com o spark que estou usando; Pode ser o link que estou utilizando do Jupyter, já que não acessei pelo anaconda. (Caso seja necessário acessar pelo anaconda, gostaria de uma orientação de como chegar ao exato ponto onde o professor chegou)

Gostaria muito de fazer todo o curso fazendo todo o processo junto com os instrutores, pelo preço que é pago esse é o mínimo que posso desejar. No momento, sem as orientações e ajudas, estou apenas fazendo o curso para retirar a certificação, coisa que definitivamente não gostaria de fazer.

Segue evidencia do erro: Insira aqui a descrição dessa imagem para ajudar na acessibilidade

1 resposta

Oi Marco Antonio,

Notei que você está tentando rodar o projeto localmente e não instalou o findspark. Por isso ele não encontra a biblioteca.

Quando este curso foi criado foi necessário usar todas essas configurações para evitar alguns problemas no projeto. Com as atualizações recentes no Colab e nas biblioteca utilizadas no curso essas configurações não são mais necessárias, mas ainda funcionam (acabei de testar aqui).

Para facilitar seus estudos dê preferência por rodar o projeto do curso no Colab. A partir de agora para rodar o projeto basta apenas instalar o pyspark (!pip install pyspark) e seguir o curso. Não precisa configurar variáveis de ambiente, instalar e usar findspark, baixar Spark etc.

Basta apenas rodar o seguinte código e seguir com o restante do curso:

!pip install pyspark

from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local[*]').getOrCreate()

Lembrando que este procedimento funciona no Colab e eu aconselho que você use o Colab nos seus estudos.

Espero ter ajudado e bons estudos