Olá, pessoal.
Fiquei com um dúvida. Neste curso para instalar e funcionar o PySpark, apenas executamos:
- !pip install pyspark
- E criamos a spark session.
Enquanto que no curso Spark: apresentando a ferramenta, usamos mais comandos:
- Baixamos o java
- Baixamos a versão do spark
- Configuramos as variáveis da ambiente
- inicializamos o findspark
- E só agora criamos a spark session
Não ficou claro para mim a diferença, porque me parece que a primeira opção ele configura tudo isso "automaticamente", é isso?
Enquanto na segundo opção eu estou detalhando o que eu quero, é isso?
Grato,
Manoel