Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)
1
resposta

[Projeto] Desafio: bora praticar? | Pandas: conhecendo a biblioteca

Resumo da Análise

1) Importação do arquivo

O arquivo foi importado com sucesso em um DataFrame Pandas com 18 linhas e 4 colunas.

2) Visualização dos dados

Primeiras 7 linhas:

  • Ary (20 anos, nota 7.5, Aprovado)
  • Ana (18 anos, sem nota, Reprovado)
  • Cátia (27 anos, nota 2.5, Reprovado)
  • Denis (18 anos, nota 5.0, Reprovado)
  • Beto (21 anos, nota 10.0, Aprovado)
  • Bruna (23 anos, sem nota, Reprovado)
  • Dara (21 anos, nota 7.0, Aprovado)

Últimas 5 linhas:

  • Mirla, Nadia (aprovados)
  • Paulo, Lucas (reprovados com notas faltantes)

3) Dimensões do DataFrame

  • Linhas: 18
  • Colunas: 4

4) Tipos de Dados

ColunaTipoDescrição
Nomestr (string)Nomes dos alunos
Idadeint64Idade em anos (sem valores faltantes)
Notasfloat64Notas numéricas (6 valores faltantes/NaN)
AprovadoboolBooleano (True/False)

Estatísticas Descritivas

Coluna Idade:

  • Média: 25.50 anos
  • Mediana: 24.50 anos
  • Desvio Padrão: 6.07
  • Mínimo: 18 anos | Máximo: 37 anos

Coluna Notas:

  • Média: 6.80
  • Mediana: 7.00
  • Desvio Padrão: 2.20
  • Mínimo: 2.5 | Máximo: 10.0
  • Valores faltantes: 6 alunos sem notas registradas

Coluna Aprovado:

  • Alunos Aprovados: 8 (44.4%)
  • Alunos Reprovados: 10 (55.6%)

Observações:

  1. 6 valores faltantes na coluna "Notas" (Ana, Bruna, Vitor, Daniel, Paulo, Lucas)
  2. A idade varia entre 18 e 37 anos
  3. As notas variam de 2.5 a 10.0
  4. A taxa de reprovação é ligeiramente maior que a taxa de aprovação
1 resposta
solução!

Olá, Estudante. Como vai?

Parabéns pelo excelente trabalho no cumprimento do primeiro desafio! Realizar uma análise exploratória inicial, entendendo as dimensões, tipos de dados e estatísticas descritivas, é o passo mais importante de qualquer projeto de Ciência de Dados. Seu resumo ficou extremamente limpo, detalhado e fácil de entender.

Para agregar ainda mais valor ao seu estudo e trazer algumas boas práticas de mercado sobre essa fase de reconhecimento dos dados, separei alguns pontos e comandos do Pandas que combinam perfeitamente com o que você analisou:

1. Validando as Dimensões e Tipos (.info())

No seu resumo, você listou muito bem a quantidade de linhas, colunas e os tipos de dados. No dia a dia, em vez de usar múltiplos comandos para descobrir isso, você pode usar o método .info(). Ele resume todas essas informações de uma vez só e ainda mostra o uso de memória RAM do DataFrame:

df.info()

2. Investigando os Valores Faltantes (NaN)

Você identificou cirurgicamente que existem 6 valores faltantes na coluna "Notas". Uma boa prática para mapear e visualizar a distribuição desses valores nulos de forma rápida, antes de decidir se vai removê-los ou preenchê-los, é combinar os métodos .isnull() e .sum():

# Mostra a quantidade exata de nulos por coluna
print(df.isnull().sum())

3. Entendendo a Diferença entre Média e Mediana

No seu levantamento estatístico, a coluna Idade apresentou uma média de 25.50 e uma mediana de 24.50. Já a coluna Notas teve média de 6.80 e mediana de 7.00.

Essa proximidade entre os valores de média e mediana indica que os seus dados estão bem distribuídos e não sofrem com outliers extremos (como um aluno de 90 anos ou uma nota errada de 100.0), o que tornaria a média pouco confiável. É sempre uma excelente prática de negócio fazer essa comparação que você fez!

4. Automatizando a Estatística Descritiva com .describe()

Para obter rapidamente os valores de média, desvio padrão, mínimo, máximo e os quartetos que você calculou para as colunas numéricas, o Pandas nos fornece o método .describe(). Para incluir também a coluna booleana e a textual na análise descritiva, você pode passar o parâmetro include='all':

print(df.describe(include='all'))

Você começou com o pé direito na biblioteca Pandas. Essa visão analítica sobre a base de dados facilitará muito os próximos passos do curso, que envolvem a limpeza e filtragem desses registros!

Espero que possa ter lhe ajudado!