Ajuda Curso Spark: Apresentando a ferramenta | Spark: apresentando a ferramenta

Oii Francisco, tudo bem com você?

Peço desculpas pela demora em dar um retorno.

Esses dois erros estão indicando que o findspark e o pyspark não foram encontrados.

Para começar é importante que você baixe o spark seguindo todo o passo a passo mostrado pelo instrutor nos minutos iniciais desta aula. Caso a versão do spark utilizada pelo professor não esteja mais disponível, você pode baixar a seguinte versão:

Página de Download do Apache Spark.

Com o Spark baixado, você deve extrair ele em alguma pasta de preferência.

No vídeo o instrutor criou uma pasta chamada "spark" no diretório raiz "C:" e extraiu o spark dentro dessa pasta, dessa forma, o diretório para encontrar o spark na máquina do instrutor ficou da seguinte forma: "C:\spark\spark-3.1.2-bin-hadoop2.7".

Sugiro que você também crie essa pasta "spark" no seu diretório raiz e extraia o arquivo spark que você baixou dentro dela, dessa forma, seu diretório para acessar o spark deve ficar semelhante a: "C:\spark\spark-3.1.3-bin-hadoop2.7".

Feito isso, para tentar resolver os erros que estão acontecendo, vou te pedir que execute o seguinte comando de instalação em uma célula do seu Jupyter Notebook:

!pip install findspark

Agora você deve definir a variável de ambiente SPARK_HOME com o diretório onde você extraiu o arquivo spark baixado anteriormente. Para fazer isso, você precisará utilizar a biblioteca os da seguinte maneira:

import os

os.environ['SPARK_HOME'] = "C:\spark\spark-3.1.3-bin-hadoop2.7"

Com essa variável de ambiente definida você pode executar novamente as células de importação do findspark e do pyspark:

import findspark
findspark.init()

from pyspark.sql import SparkSession

E prontinho, acredito que isso deve resolver os erros que estavam sendo gerados :)

No decorrer das próximas aulas, o instrutor vai utilizar o Google Colab que também é um notebook, mas que roda na máquina virtual do Google e é um pouco mais simples de ser configurado. Caso você queira, também pode utilizá-lo para fazer o curso. No vídeo Spark no Google Colab o instrutor ensina certinho como você pode configurar o Google Colab para fazer o curso também.

Se o erro persistir ou tiver alguma dúvida, estou à disposição para ajudar ^^

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Garanta sua matrícula hoje e ganhe + 2 meses grátis