Para conseguir trabalhar com a versão mais recente disponível do Spark com o ambiente local do Windows no projeto deste curso, disponível em https://spark.apache.org/downloads.html ( 4.0.0 (May 23 2025), juntamente com as versões mais recentes do Hadoop (3.4 em diante), é necessário fazer os seguintes passos, que não estão no escopo da aula:
1 - Definir as variáveis de ambiente do SPARK HOME E HADOOP HOME (se ainda não foi feito):
O notebook da aula menciona que elas devem ser definidas, mas não mostra como.
setx SPARK_HOME "C:\Program Files\spark\spark-4.0.0-bin-hadoop3"
setx HADOOP_HOME "%SPARK_HOME%\hadoop"
No meu caso, C:\Program Files\spark\spark-4.0.0-bin-hadoop3 é o caminho onde instalei o Spark na minha máquina. Especifique o local respectivo da sua.
2 - O link disponibilizado na aula contém o arquivo winutils.exe para versões até 3.0 e inferiores do Hadoop. Para 3.4 em diante, você conseguirá encontrá-lo em:
https://github.com/notepass/hadoop-native-win-libs/releases/tag/rel%2Frelease-3.4.0
arquivo: hadoop-win-utils.zip
3 - Baixar e instalar o Eclipse Adoptium JDK 17 (Java)
https://adoptium.net/en-GB/temurin/releases/?version=17&os=any&arch=any
4 - Definir as variáveis JAVA_HOME e PATH
$env:JAVA_HOME = "C:\Program Files\Eclipse Adoptium\jdk-17.0.15.6-hotspot"
$env:PATH = "$env:JAVA_HOME\bin;" + $env:PATH
No meu caso, C:\Program Files\Eclipse Adoptium\jdk-17.0.15.6-hotspot é o caminho onde instalei o meu JDK 17. Especificar o local respectivo da sua máquina.