Qual a diferença entre usar o spark do site oficial e usar o pacote pyspark?
Qual a diferença entre usar o spark do site oficial e usar o pacote pyspark?
Olá, tudo bem com você?
Segundo a documentação no site PyPI, que é o gerenciador de pacotes Python, temos que:
O pacote Python para Spark não se destina a substituir todos os outros casos de uso. Esta versão do pacote Python do Spark é adequada para interagir com um cluster existente (seja Spark standalone, YARN ou Mesos), mas não contém as ferramentas necessárias para configurar seu próprio cluster Spark standalone. Você pode baixar a versão completa do Spark na página de downloads do Apache Spark.
Em suma, você utilizando somente o Pyspark você não consegue configurar seu cluster no Spark Standalone. Deixo como sugestão de leitura complementar o seguinte tópico "What is the difference between Spark Standalone, YARN and local mode?"
Qualquer dúvida estou à disposição.