1
resposta

Não consigo importar o findspark

No notebook da anaconda fala que não encontra o py4j e o findspark não está instalado, mas no terminal mostra que o findspark está instalado e o py4j também, não sei se estão em ambiente diferente ou como resolver

1 resposta

Oi Luiza, tudo bem?

Você conseguiu abrir o PySpark pelo shell, mas é possível que o Jupyter Notebook não esteja encontrando-o.

Para resolver, siga estes passos no Jupyter:

  1. Na primeira célula do notebook, instale a biblioteca necessária:

    !pip install findspark
    
  2. Depois, configure as variáveis de ambiente e inicialize o Spark. Exemplo:

    import os
    
    os.environ["SPARK_HOME"] = r"C:\Users\mmeyr\Downloads\spark-4.0.0-bin-hadoop3\spark-4.0.0-bin-hadoop3"
    

No meu caso o caminho é esse, ajuste para a pasta onde está o Spark no seu computador

Assim o mesmo Spark que funciona no shell ficará disponível também dentro do notebook .

Nota: no curso, o instrutor não usa o Anaconda, e sim o Google Colab. Então esse passo só é necessário se você realmente quiser rodar o Spark localmente no Anaconda. Caso prefira acompanhar pelo Colab, pode pular essa configuração.

Espero ter ajudado.

Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!