[Projeto] Aula 1: Conhecendo a base de dados

Olá, Marcelo. Como vai?

Parabéns pela excelente resolução do desafio! O seu código está muito bem estruturado e você aplicou comandos fundamentais para a etapa que chamamos de Análise Exploratória de Dados (EDA).

É muito bacana ver que você teve a curiosidade de ir além do que o desafio pedia, utilizando comandos extras como o df.isnull().sum(). Essa proatividade é uma característica fantástica para um profissional de Data Science, pois investigar dados ausentes é um dos primeiros passos em qualquer projeto real antes de tomar decisões ou treinar modelos.

Sobre o seu comentário na atividade 3, você tem total razão: o método df.info() é extremamente poderoso e informativo!

Para agregar ainda mais valor ao seu estudo, vale a pena entender exatamente o que acontece por baixo dos panos quando escolhemos entre um e outro:

df.dtypes: Retorna apenas uma série com o nome de cada coluna e o seu respectivo tipo de dado (int64, float64, object, etc.). É ótimo para consultas rápidas quando você precisa apenas validar o tipo de uma variável para fazer uma operação matemática.
df.info(): É um método completo de diagnóstico do DataFrame. Além dos tipos de dados de cada coluna, ele nos dá três informações cruciais para o dia a dia:

A quantidade total de linhas (índices) do DataFrame.
A quantidade de valores não nulos (Non-Null Count) em cada coluna, o que ajuda a identificar rapidamente onde estão os buracos na base de dados.
O consumo de memória RAM que o DataFrame está exigindo do seu computador (memory usage).

Uma sugestão de boa prática com o `df.describe()`

Você utilizou o df.describe() muito bem para olhar as estatísticas descritivas básicas (como média, mediana, valores mínimos e máximos). Por padrão, o Pandas calcula isso apenas para colunas numéricas.

Uma dica de ouro para quando você estiver explorando novas bases de dados é passar o argumento include='all' dentro dele:

df.describe(include='all')

Ao fazer isso, o Pandas também incluirá na análise as colunas de texto (categóricas), mostrando informações como a quantidade de valores únicos (unique), qual é o elemento mais frequente (top) e a frequência com que ele aparece (freq). Isso dá uma visão ainda mais holística dos seus dados de uma só vez!

Continue com essa excelente curiosidade técnica e bons estudos com a biblioteca Pandas!

Espero que possa ter lhe ajudado!

Importante

[Projeto] Aula 1: Conhecendo a base de dados

Uma sugestão de boa prática com o `df.describe()`

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Uma sugestão de boa prática com o df.describe()

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Uma sugestão de boa prática com o `df.describe()`