1
resposta

[Sugestão] SOLUÇÃO - Erro do Hadoop ao Salvar o CSV

Ao tentar armazenar os dados do DataFrame Spark em um CSV, aparecia sempre o erro:

java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0...

Os arquivos fornecidos no link da aula estavam desatualizados e não oferecem suporte para as versões mais recentes do Hadoop. O repositório original parou de ser mantido, o que causa incompatibilidade com versões novas.

Encontrei um repositório alternativo atualizado, que permite baixar as bibliotecas compatíveis com as versões recentes do Hadoop/Spark. Em meu caso, o problema foi resolvido.

  • Baixe os binários atualizados do Hadoop para Windows, contendo winutils.exe e hadoop.dll, no seguinte repositório: https://github.com/cdarlint/winutils

  • Escolha a pasta correspondente à versão do Hadoop usada pelo seu Spark

  • Extraia os arquivos para uma pasta local. Sugestão: C:\spark\spark-3.5.5-bin-hadoop3\hadoop\bin

  • Configure as variáveis de ambiente no sistema ou diretamente no terminal/IDE:

set HADOOP_HOME=C:\spark\spark-3.5.5-bin-hadoop3\hadoop
set PATH=%PATH%; C:\spark\spark-3.5.5-bin-hadoop3\hadoop\bin

Reinicie o computador e execute novamente o código que salva o DataFrame com .write.csv(...).

1 resposta

Olá Guilherme, tudo certinho?

Obrigada por compartilhar sua solução para o erro que estava enfrentando. Com certeza poderá ajudar outros alunos que possam enfrentar o mesmo problema.

Continue assim, empenhado, e caso surja alguma dúvida, não hesite em compartilhar no fórum.

Abraços e bons estudos!

Alura Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!