Olá, Luiz Fernando. Como vai?
Parabéns pela excelente resolução do desafio! O seu código está limpo, muito bem estruturado e você utilizou exatamente os métodos nativos mais eficientes do Pandas para a fase de Análise Exploratória de Dados (EDA).
Essa etapa inicial de "conhecer a base" é o primeiro passo de qualquer projeto de Ciência de Dados, pois nos ajuda a entender o tamanho do problema, o comportamento das variáveis e a saúde dos dados antes de partirmos para qualquer manipulação ou modelagem.
Para agregar ainda mais valor ao seu tópico no fórum e ajudar os colegas a entenderem o que cada uma das suas saídas significa na prática, preparei um detalhamento técnico dos dois métodos mais poderosos que você utilizou:
1. O Raio-X dos Dados com o .info()
Quando você executa o alunos.info(), o Pandas devolve um resumo estrutural completo do DataFrame. É aqui que o analista de dados descobre três coisas cruciais de uma só vez:
- Contagem de Linhas e Colunas: Complementa perfeitamente o seu comando
alunos.shape. - Tipos de Dados (dtypes): Mostra se os textos estão como
object, as idades como inteiros (int64) e as notas como decimais (float64). Isso é essencial para saber se você poderá fazer contas matemáticas com aquela coluna logo de cara. - Valores Nulos (Non-Null Count): Se o seu
.shape indicou 50 linhas, mas a coluna de Notas exibir "44 non-null", você já descobre visualmente que existem 6 alunos sem nota (valores NaN) que precisarão de tratamento futuro.
2. A Magia da Estatística Descritiva com o .describe()
O método .describe() que você trouxe no exercício extra é um verdadeiro atalho de produtividade. Em vez de você calcular a média, o desvio padrão e os quartis um por um, o Pandas monta uma tabela estatística instantânea para todas as colunas numéricas (como Idade e Notas):
Ao olhar para a saída do seu .describe(), os números nos revelam a história por trás dos alunos:
count: O total de registros preenchidos.mean (Média): A nota média e a idade média daquela turma.std (Desvio Padrão): O quanto as notas dos alunos variam em relação à média. Se o desvio for muito alto, significa que a turma é heterogênea (tem gente tirando 10 e gente tirando zero). Se for baixo, as notas são muito parecidas.min e max: Os extremos (a menor e a maior nota/idade da base).25%, 50% (Mediana) e 75% (Quartis): Mostram como os dados estão distribuídos. Por exemplo, se o valor de 50% da nota for 7.0, significa que metade da turma tirou menos que 7 e a outra metade tirou mais que 7.
Sua sugestão de resposta está impecável e com certeza vai servir de ótimo guia de consulta para a comunidade Alura. Continue com esse excelente ritmo de estudos no Pandas!
Espero que possa ter lhe ajudado!