Erro agregação pyspark

Solucionado (ver solução)

Solucionado
(ver solução)

5
respostas

Referente ao curso Spark: apresentando a ferramenta, no capítulo Seleções e consultas e atividade Ordenando os dados

por DIEGO RIBEIRO DOS SANTOS

| 123.9k xp | 13 posts

Olá pessoal.

Estou tentando fazer a agregação na tabela de ano tratada, mas apresenta um erro de DateTimeException:

Fiz o procedimento no exercicio em em aula e consegui utilizar o .orderby
Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Procurei na internet e todos os procedimentos passados não funcionaram.

5 respostas

por Monalisa Meyrelle de Sousa Silva

| 4091.6k xp | 9413 posts

Alura Scuba Team

3 meses atrás

Olá Diego! Tudo bem?

O erro DateTimeException: [CANNOT_PARSE_TIMESTAMP] ocorre porque o PySpark encontrou um valor na coluna data_de_entrada_sociedade que não está no formato de data esperado. No próprio erro aparece o exemplo '4100813', que não pode ser interpretado como uma data válida.

Primeiramente, recomendo revisar as células executadas anteriormente no notebook para verificar se houve alguma alteração ou transformação na coluna data_de_entrada_sociedade em etapas anteriores do código. Em alguns casos, alguma operação intermediária pode acabar modificando o formato dos dados e gerar esse tipo de inconsistência.

Caso queira comparar com uma execução de referência, você pode utilizar o notebook de exemplo abaixo. E caso queira executá-lo, lembre-se apenas de substituir pela sua própria chave, conforme descrito na atividade Para saber mais: Acessando o SparkUI no Colab.

Aula04

Também pode ser útil reiniciar o ambiente do notebook para garantir que todas as células sejam executadas novamente na ordem correta:

No menu do Google Colaboratory, clique em "Ambientes de execução"
Selecione "Reiniciar sessão e executar tudo"

Você pode seguir o exemplo mostrado na imagem abaixo:

Opção Reiniciar sessão e executar tudo no menu Ambientes de execução do Google Colaboratory

Peço que verifique esses pontos.

Se continuar com dificuldades, fique à vontade para compartilhar o seu notebook.

Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

por DIEGO RIBEIRO DOS SANTOS

| 123.9k xp | 13 posts

3 meses atrás

Olá, Monalisa.

Fiz esses procedimentos.

O que me deixa curioso é que a coluna que o problema ocorre quando utilizo o .groupby ou .orderby.

Na coluna tratada e na outra, os valores estão formatado. Reiniciei o notebook e mesmo assim não abriu.

Estou compartilhando com você o meu notebook. Ele é meio bagunçado (rs), pois eu faço alguns testes durante o aprendizado.

Eu executo a partir do comando:

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .master('local[*]') \
    .appName("Iniciando com Spark") \
    .getOrCreate()

Pois estava apresentando um erro de compatibilidade com o Java.

https://github.com/drsantos0/alura_exercicio_pyspark/blob/main/aula0_projeto_spark_Aluno.ipynb

por Monalisa Meyrelle de Sousa Silva

| 4091.6k xp | 9413 posts

Alura Scuba Team

3 meses atrás

Oi!

O link que você enviou está quebrado ou não existe mais.

Poderia conferir se o endereço está correto e tentar compartilhar novamente?

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Fico no aguardo!

por DIEGO RIBEIRO DOS SANTOS

| 123.9k xp | 13 posts

3 meses atrás

Monalisa.

Segue o link novamente.

https://github.com/drsantos0/alura_exercicio_pyspark/blob/8787925f22fb7e9ea8f01eae93b54ea08df3cfbd/aula0_projeto_spark_Aluno.ipynb

solução!

por DIEGO RIBEIRO DOS SANTOS

| 123.9k xp | 13 posts

3 meses atrás

Monalisa.

olha do o código notebook, identifiquei o problema.
ele está no aquivo origem, antes de fazer a transformação, fiz o ajuste e consegui agregar os valores.
pode considerar como resolvido, obrigado.

Estou tentando fazer a agregação na tabela de ano tratada, mas apresenta um erro de DateTimeException:

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Estou tentando fazer a agregação na tabela de ano tratada, mas apresenta um erro de DateTimeException:

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP