Solucionado (ver solução)
Solucionado
(ver solução)
5
respostas

Erro agregação pyspark

Olá pessoal.

Estou tentando fazer a agregação na tabela de ano tratada, mas apresenta um erro de DateTimeException:
Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Fiz o procedimento no exercicio em em aula e consegui utilizar o .orderby
Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Procurei na internet e todos os procedimentos passados não funcionaram.

5 respostas

Olá Diego! Tudo bem?

O erro DateTimeException: [CANNOT_PARSE_TIMESTAMP] ocorre porque o PySpark encontrou um valor na coluna data_de_entrada_sociedade que não está no formato de data esperado. No próprio erro aparece o exemplo '4100813', que não pode ser interpretado como uma data válida.

Primeiramente, recomendo revisar as células executadas anteriormente no notebook para verificar se houve alguma alteração ou transformação na coluna data_de_entrada_sociedade em etapas anteriores do código. Em alguns casos, alguma operação intermediária pode acabar modificando o formato dos dados e gerar esse tipo de inconsistência.

Caso queira comparar com uma execução de referência, você pode utilizar o notebook de exemplo abaixo. E caso queira executá-lo, lembre-se apenas de substituir pela sua própria chave, conforme descrito na atividade Para saber mais: Acessando o SparkUI no Colab.

Também pode ser útil reiniciar o ambiente do notebook para garantir que todas as células sejam executadas novamente na ordem correta:

  1. No menu do Google Colaboratory, clique em "Ambientes de execução"
  2. Selecione "Reiniciar sessão e executar tudo"

Você pode seguir o exemplo mostrado na imagem abaixo:

Opção Reiniciar sessão e executar tudo no menu Ambientes de execução do Google Colaboratory

Peço que verifique esses pontos.

Se continuar com dificuldades, fique à vontade para compartilhar o seu notebook.

Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Olá, Monalisa.

Fiz esses procedimentos.

O que me deixa curioso é que a coluna que o problema ocorre quando utilizo o .groupby ou .orderby.

Na coluna tratada e na outra, os valores estão formatado. Reiniciei o notebook e mesmo assim não abriu.

Estou compartilhando com você o meu notebook. Ele é meio bagunçado (rs), pois eu faço alguns testes durante o aprendizado.

Eu executo a partir do comando:

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .master('local[*]') \
    .appName("Iniciando com Spark") \
    .getOrCreate()

Pois estava apresentando um erro de compatibilidade com o Java.

https://github.com/drsantos0/alura_exercicio_pyspark/blob/main/aula0_projeto_spark_Aluno.ipynb

Oi!

O link que você enviou está quebrado ou não existe mais.

Poderia conferir se o endereço está correto e tentar compartilhar novamente?

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Fico no aguardo!

solução!

Monalisa.

olha do o código notebook, identifiquei o problema.
ele está no aquivo origem, antes de fazer a transformação, fiz o ajuste e consegui agregar os valores.
pode considerar como resolvido, obrigado.