No notebook da anaconda fala que não encontra o py4j e o findspark não está instalado, mas no terminal mostra que o findspark está instalado e o py4j também, não sei se estão em ambiente diferente ou como resolver
No notebook da anaconda fala que não encontra o py4j e o findspark não está instalado, mas no terminal mostra que o findspark está instalado e o py4j também, não sei se estão em ambiente diferente ou como resolver
Oi Luiza, tudo bem?
Você conseguiu abrir o PySpark pelo shell, mas é possível que o Jupyter Notebook não esteja encontrando-o.
Para resolver, siga estes passos no Jupyter:
Na primeira célula do notebook, instale a biblioteca necessária:
!pip install findspark
Depois, configure as variáveis de ambiente e inicialize o Spark. Exemplo:
import os
os.environ["SPARK_HOME"] = r"C:\Users\mmeyr\Downloads\spark-4.0.0-bin-hadoop3\spark-4.0.0-bin-hadoop3"
No meu caso o caminho é esse, ajuste para a pasta onde está o Spark no seu computador
Assim o mesmo Spark que funciona no shell ficará disponível também dentro do notebook .
Nota: no curso, o instrutor não usa o Anaconda, e sim o Google Colab. Então esse passo só é necessário se você realmente quiser rodar o Spark localmente no Anaconda. Caso prefira acompanhar pelo Colab, pode pular essa configuração.
Espero ter ajudado.
Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!