Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

1
resposta

[Sugestão] DESAFIO: BORA PRATICAR?

Segue minha sugestão de solução para os exercícios:

  1. Importe o arquivo alunos.csv e armazene seu conteúdo em um DataFrame Pandas.
url2 = 'https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/desafios/alunos.csv'

# Armazenando em um DataFrame
alunos = pd.read_csv(url2, sep=',')
alunos
  1. Visualize as primeiras 7 linhas do DataFrame e as 5 últimas.
alunos.head(7)
  1. Confira a quantidade de linhas e colunas desse DataFrame.
alunos.shape
  1. Explore as colunas do DataFrame e analise os tipos dos dados presentes em cada coluna.
alunos.info()
alunos.columns
alunos[['Nome','Notas']]

Extra: Calcule algumas estatísticas descritivas básicas dos dados do DataFrame (média, desvio padrão, etc). Dica: utilize o método describe.

alunos.describe()
1 resposta

Olá, Luiz Fernando. Como vai?

Parabéns pela excelente resolução do desafio! O seu código está limpo, muito bem estruturado e você utilizou exatamente os métodos nativos mais eficientes do Pandas para a fase de Análise Exploratória de Dados (EDA).

Essa etapa inicial de "conhecer a base" é o primeiro passo de qualquer projeto de Ciência de Dados, pois nos ajuda a entender o tamanho do problema, o comportamento das variáveis e a saúde dos dados antes de partirmos para qualquer manipulação ou modelagem.

Para agregar ainda mais valor ao seu tópico no fórum e ajudar os colegas a entenderem o que cada uma das suas saídas significa na prática, preparei um detalhamento técnico dos dois métodos mais poderosos que você utilizou:


1. O Raio-X dos Dados com o .info()

Quando você executa o alunos.info(), o Pandas devolve um resumo estrutural completo do DataFrame. É aqui que o analista de dados descobre três coisas cruciais de uma só vez:

  • Contagem de Linhas e Colunas: Complementa perfeitamente o seu comando alunos.shape.
  • Tipos de Dados (dtypes): Mostra se os textos estão como object, as idades como inteiros (int64) e as notas como decimais (float64). Isso é essencial para saber se você poderá fazer contas matemáticas com aquela coluna logo de cara.
  • Valores Nulos (Non-Null Count): Se o seu .shape indicou 50 linhas, mas a coluna de Notas exibir "44 non-null", você já descobre visualmente que existem 6 alunos sem nota (valores NaN) que precisarão de tratamento futuro.

2. A Magia da Estatística Descritiva com o .describe()

O método .describe() que você trouxe no exercício extra é um verdadeiro atalho de produtividade. Em vez de você calcular a média, o desvio padrão e os quartis um por um, o Pandas monta uma tabela estatística instantânea para todas as colunas numéricas (como Idade e Notas):

Ao olhar para a saída do seu .describe(), os números nos revelam a história por trás dos alunos:

  • count: O total de registros preenchidos.
  • mean (Média): A nota média e a idade média daquela turma.
  • std (Desvio Padrão): O quanto as notas dos alunos variam em relação à média. Se o desvio for muito alto, significa que a turma é heterogênea (tem gente tirando 10 e gente tirando zero). Se for baixo, as notas são muito parecidas.
  • min e max: Os extremos (a menor e a maior nota/idade da base).
  • 25%, 50% (Mediana) e 75% (Quartis): Mostram como os dados estão distribuídos. Por exemplo, se o valor de 50% da nota for 7.0, significa que metade da turma tirou menos que 7 e a outra metade tirou mais que 7.

Sua sugestão de resposta está impecável e com certeza vai servir de ótimo guia de consulta para a comunidade Alura. Continue com esse excelente ritmo de estudos no Pandas!

Espero que possa ter lhe ajudado!