1
resposta

Quando uso Parquet não funciona

Estou tentando recriar o dataFrame 'empresas' em formato parquet, no entanto, é exibido um erro que não consigo interpretar muito bem:

Py4JJavaError: An error occurred while calling o137.parquet. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 5.0 failed 1 times, most recent failure: Lost task 0.0 in stage 5.0 (TID 5) (fbdfda4a9556 executor driver): org.apache.spark.SparkException: Exception thrown in awaitResult:

1 resposta

Para quem está trabalhando local com algum IDE, ou jupyter, eu consegui resolver meus problemas desse capítulo (Formas de Armazenamento) criando a variável de ambiente para o path %HADOOP_HOME%\bin. Vou colocar abaixo 2 links que me ajudaram a resolver.

https://medium.com/@enriquecatala/java-io-filenotfoundexception-hadoop-home-and-hadoop-home-dir-are-unset-4004d5e05f67 https://phoenixnap.com/kb/install-spark-on-windows-10

Espero que ajude quem procura formas de trabalhar com SPARK de forma local.

Bons estudos.