Olá, Vanelice. Como vai?
Parabéns por concluir o desafio e praticar os conceitos fundamentais do Pandas! Seu código demonstra uma ótima compreensão de como importar dados externos, visualizar a estrutura inicial de um conjunto de dados e investigar os tipos de dados e colunas.
Como você compartilhou a sua resolução, vale a pena destacar alguns pequenos detalhes estruturais para que seu código rode perfeitamente no seu notebook e trazer um complemento sobre o método extra que você explorou.
1. Guardando os dados na variável (Ajuste técnico)
No primeiro passo, você utilizou corretamente o comando pd.read_csv(url). No entanto, para que os métodos seguintes como dados.head(7) ou dados.shape funcionem sem dar um erro de variável não definida (NameError), você precisa atribuir o resultado do carregamento à variável dados.
O ajuste é bem simples:
import pandas as pd
url = 'https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/desafios/alunos.csv'
# Salvando o arquivo carregado na variável dados
dados = pd.read_csv(url)
2. Entendendo o Método describe()
Foi excelente você ter pesquisado e trazido o método dados.describe(). Ele é um dos comandos mais importantes na fase de análise exploratória de dados em Data Science.
Por padrão, o describe() analisa as colunas numéricas (no seu caso, as colunas de idade e notas) e calcula um resumo estatístico estruturado.
Aqui está o significado de cada métrica que ele gera para te ajudar a interpretar os resultados:
- count: Quantidade de valores preenchidos (ajuda a identificar se existem linhas em branco/nulas).
- mean: A média aritmética dos valores da coluna.
- std: O desvio padrão (standard deviation), que indica o quanto os dados estão dispersos ou afastados em relação à média.
- min: O menor valor encontrado na coluna.
- 25%, 50%, 75%: São os quartetos (percentis). O de 50% representa a mediana, ou seja, o valor exato que divide a sua base de dados ao meio.
- max: O maior valor encontrado na coluna.
Dica Extra: Se você quiser que o describe() também analise colunas de texto (como os nomes dos alunos ou status de aprovação), você pode passar o parâmetro include='all':
dados.describe(include='all')
Seus códigos de seleção de colunas e visualização do formato do DataFrame (shape) estão perfeitos. Continue com essa curiosidade de explorar novas funções documentadas!
Espero que possa ter lhe ajudado!