Olá Estudante, tudo bem com você?
Peço desculpas pela demora em obter um retorno.
A ordem em que você encadeia as operações em um DataFrame Spark pode variar dependendo do que você deseja fazer, mas geralmente há uma ordem lógica que você deve seguir para obter o resultado desejado. Começamos normalmente selecionando as colunas que desejamos incluir, em seguida, caso tenha algum filtro, podemos aplicar, após isso, podemos agregar (agrupar) esses dados - depois do agrupamento, geralmente aplicamos funções de agregação (sum, avg, max, min…) e o withColumn é geralmente usado para adicionar uma nova coluna ao DataFrame com base em uma expressão.
Abaixo, deixo um exemplo em código do uso do groupBy usando o pyspark:
socios\
.select(f.year('data_de_entrada_sociedade').alias('ano_de_entrada'))\
.where('ano_de_entrada >= 2010')\
.groupBy('ano_de_entrada')\
.count()\
.orderBy('ano_de_entrada', ascending=True)\
.show()
Acrescento também que na aula Sumarizando os dados o instrutor irá apresentar o uso da função groupBy
assim como explica com detalhes o código anterior.
Espero ter ajudado. Continue mergulhando em conhecimento e não hesite em voltar ao fórum para continuar aprendendo e interagindo com a comunidade.
Em caso de dúvidas estou à disposição.
Abraços e bons estudos!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!