Oii, José tudo bem?
Esse tipo de erro pode ser causado por vários motivos, para sabermos ao certo qual é, precisamos verificar o log do cluster (clique no ID
do cluster) para lermos os detalhes do erro. Nesse sentido, faça isso e compartilhe conosco as informações sobre o erro.
Mas posso adiantar alguns para você verificar, por exemplo
- Veja se o script PySpark está com o caminho certo no S3 e não tem erro de sintaxe
- Revise os nomes dos bancos de dados e tabelas e todos os argumentos necessários estão sendo incluídos e estejam sem erros.
Na documentação podemos encontrar soluções para os erros mais comuns, de acordo com a mensagem que encontramos no log, deixarei o link aqui:
Espero que uma das sugestões te ajude.
Bons estudos, José!