2
respostas

Ajuda Curso Spark: Apresentando a ferramenta

Olá,

Não consigo sair do erro abaixo: (aula 05: Utilizando Spark no Windows)


import os

os.environ["SPARK_HOME"] = "C:\Spark"


import findspark findspark.init()

ModuleNotFoundError Traceback (most recent call last) ~\AppData\Local\Temp/ipykernel_13184/1467411254.py in ----> 1 import findspark 2 findspark.init('/Spark')

ModuleNotFoundError: No module named 'findspark'

----------------------
from pyspark.sql import SparkSession

ModuleNotFoundError                       Traceback (most recent call last)

~\AppData\Local\Temp/ipykernel_13184/3448758925.py in ----> 1 from pyspark.sql import SparkSession

ModuleNotFoundError: No module named 'pyspark'

2 respostas

Oii Francisco, tudo bem com você?

Peço desculpas pela demora em dar um retorno.

Esses dois erros estão indicando que o findspark e o pyspark não foram encontrados.

Para começar é importante que você baixe o spark seguindo todo o passo a passo mostrado pelo instrutor nos minutos iniciais desta aula. Caso a versão do spark utilizada pelo professor não esteja mais disponível, você pode baixar a seguinte versão:

Página de Download do Apache Spark.

Com o Spark baixado, você deve extrair ele em alguma pasta de preferência.

No vídeo o instrutor criou uma pasta chamada "spark" no diretório raiz "C:" e extraiu o spark dentro dessa pasta, dessa forma, o diretório para encontrar o spark na máquina do instrutor ficou da seguinte forma: "C:\spark\spark-3.1.2-bin-hadoop2.7".

Sugiro que você também crie essa pasta "spark" no seu diretório raiz e extraia o arquivo spark que você baixou dentro dela, dessa forma, seu diretório para acessar o spark deve ficar semelhante a: "C:\spark\spark-3.1.3-bin-hadoop2.7".

Feito isso, para tentar resolver os erros que estão acontecendo, vou te pedir que execute o seguinte comando de instalação em uma célula do seu Jupyter Notebook:

!pip install findspark

Agora você deve definir a variável de ambiente SPARK_HOME com o diretório onde você extraiu o arquivo spark baixado anteriormente. Para fazer isso, você precisará utilizar a biblioteca os da seguinte maneira:

import os

os.environ['SPARK_HOME'] = "C:\spark\spark-3.1.3-bin-hadoop2.7"

Com essa variável de ambiente definida você pode executar novamente as células de importação do findspark e do pyspark:

import findspark
findspark.init()
from pyspark.sql import SparkSession

E prontinho, acredito que isso deve resolver os erros que estavam sendo gerados :)

No decorrer das próximas aulas, o instrutor vai utilizar o Google Colab que também é um notebook, mas que roda na máquina virtual do Google e é um pouco mais simples de ser configurado. Caso você queira, também pode utilizá-lo para fazer o curso. No vídeo Spark no Google Colab o instrutor ensina certinho como você pode configurar o Google Colab para fazer o curso também.

Se o erro persistir ou tiver alguma dúvida, estou à disposição para ajudar ^^

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Obrigado, mas não resolveu.

import os

os.environ['SPARK_HOME'] = "C:\spark\spark-3.1.3-bin-hadoop2.7"

os.environ[SPARK_HOME]: command not found