No notebook da anaconda fala que não encontra o py4j e o findspark não está instalado, mas no terminal mostra que o findspark está instalado e o py4j também, não sei se estão em ambiente diferente ou como resolver
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
No notebook da anaconda fala que não encontra o py4j e o findspark não está instalado, mas no terminal mostra que o findspark está instalado e o py4j também, não sei se estão em ambiente diferente ou como resolver
Oi Luiza, tudo bem?
Você conseguiu abrir o PySpark pelo shell, mas é possível que o Jupyter Notebook não esteja encontrando-o.
Para resolver, siga estes passos no Jupyter:
Na primeira célula do notebook, instale a biblioteca necessária:
!pip install findspark
Depois, configure as variáveis de ambiente e inicialize o Spark. Exemplo:
import os
os.environ["SPARK_HOME"] = r"C:\Users\mmeyr\Downloads\spark-4.0.0-bin-hadoop3\spark-4.0.0-bin-hadoop3"
No meu caso o caminho é esse, ajuste para a pasta onde está o Spark no seu computador
Assim o mesmo Spark que funciona no shell ficará disponível também dentro do notebook .
Nota: no curso, o instrutor não usa o Anaconda, e sim o Google Colab. Então esse passo só é necessário se você realmente quiser rodar o Spark localmente no Anaconda. Caso prefira acompanhar pelo Colab, pode pular essa configuração.
Espero ter ajudado.
Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!