1
resposta

Erro ao dar o show no dataframe

Caros, tenho um dataframe que quando eu dou um show nele (mesmo limitando a quantidade de linhas), ou se eu mando gravar o dataframe em formato parquet, ele estoura o erro abaixo.

An error occurred while calling o147.showString. Job aborted due to stage failure: ShuffleMapStage 16 (showString at NativeMethodAccessorImpl.java:0) has failed the maximum allowable number of times: 4. Most recent failure reason: org.apache.spark.shuffle.FetchFailedException: Stream is corrupted at org.apache.spark.storage.ShuffleBlockFetcherIterator.throwFetchFailedException(ShuffleBlockFetcherIterator.scala:772) at org.apache.spark.storage.BufferReleasingInputStream.read(ShuffleBlockFetcherIterator.scala:845) at java.io.FilterInputStream.read(FilterInputStream.java:133) at java.io.BufferedInputStream.fill(BufferedInputStream.java:246) at java.io.BufferedInputStream.read(BufferedInputStream.java:265) at java.io.DataInputStream.readInt(DataInputStream.java:387) at org.apache.spark.sql.execution.UnsafeRowSerializerInstance$$anon$2$$anon$3.readSize(UnsafeRowSerializer.scala:113) at org.apache.spark.sql.execution.UnsafeRowSerializerInstance$$anon$2$$anon$3.next(UnsafeRowSerializer.scala:129) at org.apa

Alguém já viu algo parecido? Obrigada

1 resposta

Oi Estudante,

Você deve estar tentando rodar o projeto localmente e dessa forma fica difícil identificar o problema para poder te ajudar. É provável que esteja relacionado com a configuração de suas variáveis de ambiente e nesse sentido a postagem de nosso colega Eduardo talvez possa te ajudar.

Dê preferência para rodar o projeto no Colab. A partir das novas versões para rodar o projeto basta apenas instalar o pyspark e seguir o curso. Não precisa configurar variáveis de ambiente, baixar Spark etc.

Basta apenas rodar o seguinte código e seguir com o restante do curso:

!pip install pyspark

from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local[*]').getOrCreate()

Lembrando que este procedimento funciona no Colab e eu aconselho que você use o Colab nos seus estudos.

Espero ter ajudado e bons estudos