[Projeto] Desafio: bora praticar? | Pandas: conhecendo a biblioteca | Pandas: conhecendo a biblioteca

Resumo da Análise

1) Importação do arquivo

O arquivo foi importado com sucesso em um DataFrame Pandas com 18 linhas e 4 colunas.

2) Visualização dos dados

Primeiras 7 linhas:

Ary (20 anos, nota 7.5, Aprovado)
Ana (18 anos, sem nota, Reprovado)
Cátia (27 anos, nota 2.5, Reprovado)
Denis (18 anos, nota 5.0, Reprovado)
Beto (21 anos, nota 10.0, Aprovado)
Bruna (23 anos, sem nota, Reprovado)
Dara (21 anos, nota 7.0, Aprovado)

Últimas 5 linhas:

Mirla, Nadia (aprovados)
Paulo, Lucas (reprovados com notas faltantes)

3) Dimensões do DataFrame

Linhas: 18
Colunas: 4

4) Tipos de Dados

Coluna	Tipo	Descrição
Nome	`str` (string)	Nomes dos alunos
Idade	`int64`	Idade em anos (sem valores faltantes)
Notas	`float64`	Notas numéricas (6 valores faltantes/NaN)
Aprovado	`bool`	Booleano (True/False)

Estatísticas Descritivas

Coluna Idade:

Média: 25.50 anos
Mediana: 24.50 anos
Desvio Padrão: 6.07
Mínimo: 18 anos | Máximo: 37 anos

Coluna Notas:

Média: 6.80
Mediana: 7.00
Desvio Padrão: 2.20
Mínimo: 2.5 | Máximo: 10.0
Valores faltantes: 6 alunos sem notas registradas

Coluna Aprovado:

Alunos Aprovados: 8 (44.4%)
Alunos Reprovados: 10 (55.6%)

Observações:

Há 6 valores faltantes na coluna "Notas" (Ana, Bruna, Vitor, Daniel, Paulo, Lucas)
A idade varia entre 18 e 37 anos
As notas variam de 2.5 a 10.0
A taxa de reprovação é ligeiramente maior que a taxa de aprovação

Olá, Estudante. Como vai?

Parabéns pelo excelente trabalho no cumprimento do primeiro desafio! Realizar uma análise exploratória inicial, entendendo as dimensões, tipos de dados e estatísticas descritivas, é o passo mais importante de qualquer projeto de Ciência de Dados. Seu resumo ficou extremamente limpo, detalhado e fácil de entender.

Para agregar ainda mais valor ao seu estudo e trazer algumas boas práticas de mercado sobre essa fase de reconhecimento dos dados, separei alguns pontos e comandos do Pandas que combinam perfeitamente com o que você analisou:

1. Validando as Dimensões e Tipos (`.info()`)

No seu resumo, você listou muito bem a quantidade de linhas, colunas e os tipos de dados. No dia a dia, em vez de usar múltiplos comandos para descobrir isso, você pode usar o método .info(). Ele resume todas essas informações de uma vez só e ainda mostra o uso de memória RAM do DataFrame:

df.info()

2. Investigando os Valores Faltantes (NaN)

Você identificou cirurgicamente que existem 6 valores faltantes na coluna "Notas". Uma boa prática para mapear e visualizar a distribuição desses valores nulos de forma rápida, antes de decidir se vai removê-los ou preenchê-los, é combinar os métodos .isnull() e .sum():

# Mostra a quantidade exata de nulos por coluna
print(df.isnull().sum())

3. Entendendo a Diferença entre Média e Mediana

No seu levantamento estatístico, a coluna Idade apresentou uma média de 25.50 e uma mediana de 24.50. Já a coluna Notas teve média de 6.80 e mediana de 7.00.

Essa proximidade entre os valores de média e mediana indica que os seus dados estão bem distribuídos e não sofrem com outliers extremos (como um aluno de 90 anos ou uma nota errada de 100.0), o que tornaria a média pouco confiável. É sempre uma excelente prática de negócio fazer essa comparação que você fez!

4. Automatizando a Estatística Descritiva com `.describe()`

Para obter rapidamente os valores de média, desvio padrão, mínimo, máximo e os quartetos que você calculou para as colunas numéricas, o Pandas nos fornece o método .describe(). Para incluir também a coluna booleana e a textual na análise descritiva, você pode passar o parâmetro include='all':

print(df.describe(include='all'))

Você começou com o pé direito na biblioteca Pandas. Essa visão analítica sobre a base de dados facilitará muito os próximos passos do curso, que envolvem a limpeza e filtragem desses registros!

Espero que possa ter lhe ajudado!

Importante

[Projeto] Desafio: bora praticar? | Pandas: conhecendo a biblioteca

Resumo da Análise

1) Importação do arquivo

2) Visualização dos dados

3) Dimensões do DataFrame

4) Tipos de Dados

Estatísticas Descritivas

Observações:

1. Validando as Dimensões e Tipos (`.info()`)

2. Investigando os Valores Faltantes (NaN)

3. Entendendo a Diferença entre Média e Mediana

4. Automatizando a Estatística Descritiva com `.describe()`

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Resumo da Análise

1) Importação do arquivo

2) Visualização dos dados

3) Dimensões do DataFrame

4) Tipos de Dados

Estatísticas Descritivas

Observações:

1. Validando as Dimensões e Tipos (.info())

2. Investigando os Valores Faltantes (NaN)

3. Entendendo a Diferença entre Média e Mediana

4. Automatizando a Estatística Descritiva com .describe()

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

1. Validando as Dimensões e Tipos (`.info()`)

4. Automatizando a Estatística Descritiva com `.describe()`