0
respostas

Resolução do Desafio

Eu realizei o desafio e queria saber se há algo que pode ser melhorado (Obs: Para fazer a consulta'query' precisei transformar o arquivo em DataFrame)

local_arquivo_desafio = '/FileStore/relatorio_inscricao_dados_abertos_fies_22021.csv'

import pyspark.pandas as ps

df_desafio = ps.read_csv(local_arquivo_desafio, index_col= 'ID do estudante', sep=';')

df_desafio = ps.DataFrame(df_desafio)

# Exclusão de valores NaN
df_desafio.dropna(inplace=True)

query_propocao = ps.sql('''
    SELECT Sexo, COUNT(Sexo) AS Qtd_proporcao
    FROM {DF}
    GROUP BY sexo
''', DF=df_desafio)

query_propocao.plot.bar(x='Sexo', y= 'Qtd_proporcao')

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Garanta sua matrícula hoje e ganhe + 2 meses grátis

Continue sua jornada tech com ainda mais tempo para aprender e evoluir

Quero aproveitar agora