Olá, Marcelo. Como vai?
Parabéns pela excelente resolução do desafio! O seu código está muito bem estruturado e você aplicou comandos fundamentais para a etapa que chamamos de Análise Exploratória de Dados (EDA).
É muito bacana ver que você teve a curiosidade de ir além do que o desafio pedia, utilizando comandos extras como o df.isnull().sum(). Essa proatividade é uma característica fantástica para um profissional de Data Science, pois investigar dados ausentes é um dos primeiros passos em qualquer projeto real antes de tomar decisões ou treinar modelos.
Sobre o seu comentário na atividade 3, você tem total razão: o método df.info() é extremamente poderoso e informativo!
Para agregar ainda mais valor ao seu estudo, vale a pena entender exatamente o que acontece por baixo dos panos quando escolhemos entre um e outro:
df.dtypes: Retorna apenas uma série com o nome de cada coluna e o seu respectivo tipo de dado (int64, float64, object, etc.). É ótimo para consultas rápidas quando você precisa apenas validar o tipo de uma variável para fazer uma operação matemática.df.info(): É um método completo de diagnóstico do DataFrame. Além dos tipos de dados de cada coluna, ele nos dá três informações cruciais para o dia a dia:
- A quantidade total de linhas (índices) do DataFrame.
- A quantidade de valores não nulos (
Non-Null Count) em cada coluna, o que ajuda a identificar rapidamente onde estão os buracos na base de dados. - O consumo de memória RAM que o DataFrame está exigindo do seu computador (
memory usage).
Uma sugestão de boa prática com o df.describe()
Você utilizou o df.describe() muito bem para olhar as estatísticas descritivas básicas (como média, mediana, valores mínimos e máximos). Por padrão, o Pandas calcula isso apenas para colunas numéricas.
Uma dica de ouro para quando você estiver explorando novas bases de dados é passar o argumento include='all' dentro dele:
df.describe(include='all')
Ao fazer isso, o Pandas também incluirá na análise as colunas de texto (categóricas), mostrando informações como a quantidade de valores únicos (unique), qual é o elemento mais frequente (top) e a frequência com que ele aparece (freq). Isso dá uma visão ainda mais holística dos seus dados de uma só vez!
Continue com essa excelente curiosidade técnica e bons estudos com a biblioteca Pandas!
Espero que possa ter lhe ajudado!