Quando uso Parquet não funciona | Spark: apresentando a ferramenta

1
resposta

Referente ao curso Spark: apresentando a ferramenta, no capítulo Formas de armazenamento e atividade Arquivos Parquet

por Rafael Santos da Silva

| 86.6k xp | 7 posts

Estou tentando recriar o dataFrame 'empresas' em formato parquet, no entanto, é exibido um erro que não consigo interpretar muito bem:

Py4JJavaError: An error occurred while calling o137.parquet. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 5.0 failed 1 times, most recent failure: Lost task 0.0 in stage 5.0 (TID 5) (fbdfda4a9556 executor driver): org.apache.spark.SparkException: Exception thrown in awaitResult:

1 resposta

por Thales Zanin

| 72.2k xp | 10 posts

30/11/2022

Para quem está trabalhando local com algum IDE, ou jupyter, eu consegui resolver meus problemas desse capítulo (Formas de Armazenamento) criando a variável de ambiente para o path %HADOOP_HOME%\bin. Vou colocar abaixo 2 links que me ajudaram a resolver.

https://medium.com/@enriquecatala/java-io-filenotfoundexception-hadoop-home-and-hadoop-home-dir-are-unset-4004d5e05f67 https://phoenixnap.com/kb/install-spark-on-windows-10

Espero que ajude quem procura formas de trabalhar com SPARK de forma local.

Bons estudos.

Garanta sua matrícula hoje e ganhe + 2 meses grátis