1
resposta

[Projeto] Aula 1: Conhecendo a base de dados

Desafio 1

import pandas as pd
url = 'https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/desafios/alunos.csv'
df = pd.read_csv(url)

Desafio 2

df.head(7)
df.tail(5)

Desafio 3

df.shape
df.columns
df.info()  # achei muito melhor e mais informativo que dtypes
df.dtypes
df['Aprovado']
df.describe() #estatistica descritivas básicas
df.isnull().sum()  # descobrindo se existe nulos, aqui mais curiosidade não pedia no desafio

Extra

df.describe()  #estatistica descritivas básicas
1 resposta

Olá, Marcelo. Como vai?

Parabéns pela excelente resolução do desafio! O seu código está muito bem estruturado e você aplicou comandos fundamentais para a etapa que chamamos de Análise Exploratória de Dados (EDA).

É muito bacana ver que você teve a curiosidade de ir além do que o desafio pedia, utilizando comandos extras como o df.isnull().sum(). Essa proatividade é uma característica fantástica para um profissional de Data Science, pois investigar dados ausentes é um dos primeiros passos em qualquer projeto real antes de tomar decisões ou treinar modelos.

Sobre o seu comentário na atividade 3, você tem total razão: o método df.info() é extremamente poderoso e informativo!

Para agregar ainda mais valor ao seu estudo, vale a pena entender exatamente o que acontece por baixo dos panos quando escolhemos entre um e outro:

  • df.dtypes: Retorna apenas uma série com o nome de cada coluna e o seu respectivo tipo de dado (int64, float64, object, etc.). É ótimo para consultas rápidas quando você precisa apenas validar o tipo de uma variável para fazer uma operação matemática.
  • df.info(): É um método completo de diagnóstico do DataFrame. Além dos tipos de dados de cada coluna, ele nos dá três informações cruciais para o dia a dia:
  1. A quantidade total de linhas (índices) do DataFrame.
  2. A quantidade de valores não nulos (Non-Null Count) em cada coluna, o que ajuda a identificar rapidamente onde estão os buracos na base de dados.
  3. O consumo de memória RAM que o DataFrame está exigindo do seu computador (memory usage).

Uma sugestão de boa prática com o df.describe()

Você utilizou o df.describe() muito bem para olhar as estatísticas descritivas básicas (como média, mediana, valores mínimos e máximos). Por padrão, o Pandas calcula isso apenas para colunas numéricas.

Uma dica de ouro para quando você estiver explorando novas bases de dados é passar o argumento include='all' dentro dele:

df.describe(include='all')

Ao fazer isso, o Pandas também incluirá na análise as colunas de texto (categóricas), mostrando informações como a quantidade de valores únicos (unique), qual é o elemento mais frequente (top) e a frequência com que ele aparece (freq). Isso dá uma visão ainda mais holística dos seus dados de uma só vez!

Continue com essa excelente curiosidade técnica e bons estudos com a biblioteca Pandas!

Espero que possa ter lhe ajudado!