[Sugestão] SOLUÇÃO - Erro do Hadoop ao Salvar o CSV

Ao tentar armazenar os dados do DataFrame Spark em um CSV, aparecia sempre o erro:

java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0...

Os arquivos fornecidos no link da aula estavam desatualizados e não oferecem suporte para as versões mais recentes do Hadoop. O repositório original parou de ser mantido, o que causa incompatibilidade com versões novas.

Encontrei um repositório alternativo atualizado, que permite baixar as bibliotecas compatíveis com as versões recentes do Hadoop/Spark. Em meu caso, o problema foi resolvido.

Baixe os binários atualizados do Hadoop para Windows, contendo winutils.exe e hadoop.dll, no seguinte repositório: https://github.com/cdarlint/winutils
Escolha a pasta correspondente à versão do Hadoop usada pelo seu Spark
Extraia os arquivos para uma pasta local. Sugestão: C:\spark\spark-3.5.5-bin-hadoop3\hadoop\bin
Configure as variáveis de ambiente no sistema ou diretamente no terminal/IDE:

set HADOOP_HOME=C:\spark\spark-3.5.5-bin-hadoop3\hadoop
set PATH=%PATH%; C:\spark\spark-3.5.5-bin-hadoop3\hadoop\bin

Reinicie o computador e execute novamente o código que salva o DataFrame com .write.csv(...).

Importante

[Sugestão] SOLUÇÃO - Erro do Hadoop ao Salvar o CSV

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP