1
resposta

Fazendo o curso em Agosto de 2024 - observações

Prezados tudo bem?

Estou agora em agosto de 2024 fazendo esse treinamento e, por esse motivo já não conto mais com a versão disponível (gratuita) da área de desenvolvedor no Twitter, que passou a ser pago graças ao Sr. Ellon Musk.

Pois bem, desde o curso anterior estou usando arquivos simulando tweets hospedados no site https://labdados.com e, coincidência ou não, não estava dando certo a execução do spark submit, especificamente a seguinte linha de comando:

./bin/spark-submit /home/marcio-estevam/Documentos/Spark_Airflow/src/spark/transformation.py --src /home/marcio-estevam/Documentos/Spark_Airflow/curso2/datalake/twitter_datascience --dest /home/marcio-estevam/Documentos/Spark_Airflow/src/spark/output --process_date 2022-08-15

Os erros apresentados eram de não encontrar no df os nomes modificados durante o processo de elaboração do notebook e, revendo esse campo onde ocorre essa remarcação dos nomes estava assim:

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Porém, tive que alterar para o seguinte:

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Para renomear as colunas corretamente.

Após isso, o script rodou perfeitamente:

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

1 resposta

Oi Márcio, tudo bem?

Primeiramente, quero agradecer por compartilhar essa ferramenta como alternativa e por dividir a solução que você encontrou para o problema. Tenho certeza de que isso será muito útil para outros alunos que enfrentarem situações semelhantes.

Sua dedicação faz toda a diferença. Continue assim!

Qualquer dúvida, não hesite em compartilhar no fórum.

Abraços e bons estudos!