Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

1
resposta

Desafio: bora praticar?

Olá, Colegas!

  1. Importe o arquivo alunos.csv e armazene seu conteúdo em um DataFrame Pandas.
 url = 'https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/desafios/alunos.csv'
pd.read_csv(url)
  1. Visualize as primeiras 7 linhas do DataFrame e as 5 últimas.
dados.head(7)
dados.tail()
  1. Confira a quantidade de linhas e colunas desse DataFrame.
dados.shape
  1. Explore as colunas do DataFrame e analise os tipos dos dados presentes em cada coluna.
  • Visualizando os nomes das colunas:
dados.columns
  • Selecionando uma coluna:
# selecionando uma coluna
dados['Nome']
  • Selecionando múltiplas colunas:
dados[['Idade', 'Notas']]
  • Conferindo os tipos de dados de cada coluna:
dados.dtypes
  • Extra: Calcule algumas estatísticas descritivas básicas dos dados do DataFrame (média, desvio padrão, etc). Dica: pesquise pelo método describe.
dados.describe()
1 resposta

Olá, Vanelice. Como vai?

Parabéns por concluir o desafio e praticar os conceitos fundamentais do Pandas! Seu código demonstra uma ótima compreensão de como importar dados externos, visualizar a estrutura inicial de um conjunto de dados e investigar os tipos de dados e colunas.

Como você compartilhou a sua resolução, vale a pena destacar alguns pequenos detalhes estruturais para que seu código rode perfeitamente no seu notebook e trazer um complemento sobre o método extra que você explorou.

1. Guardando os dados na variável (Ajuste técnico)

No primeiro passo, você utilizou corretamente o comando pd.read_csv(url). No entanto, para que os métodos seguintes como dados.head(7) ou dados.shape funcionem sem dar um erro de variável não definida (NameError), você precisa atribuir o resultado do carregamento à variável dados.

O ajuste é bem simples:

import pandas as pd

url = 'https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/desafios/alunos.csv'
# Salvando o arquivo carregado na variável dados
dados = pd.read_csv(url)

2. Entendendo o Método describe()

Foi excelente você ter pesquisado e trazido o método dados.describe(). Ele é um dos comandos mais importantes na fase de análise exploratória de dados em Data Science.

Por padrão, o describe() analisa as colunas numéricas (no seu caso, as colunas de idade e notas) e calcula um resumo estatístico estruturado.

Aqui está o significado de cada métrica que ele gera para te ajudar a interpretar os resultados:

  • count: Quantidade de valores preenchidos (ajuda a identificar se existem linhas em branco/nulas).
  • mean: A média aritmética dos valores da coluna.
  • std: O desvio padrão (standard deviation), que indica o quanto os dados estão dispersos ou afastados em relação à média.
  • min: O menor valor encontrado na coluna.
  • 25%, 50%, 75%: São os quartetos (percentis). O de 50% representa a mediana, ou seja, o valor exato que divide a sua base de dados ao meio.
  • max: O maior valor encontrado na coluna.

Dica Extra: Se você quiser que o describe() também analise colunas de texto (como os nomes dos alunos ou status de aprovação), você pode passar o parâmetro include='all':

dados.describe(include='all')

Seus códigos de seleção de colunas e visualização do formato do DataFrame (shape) estão perfeitos. Continue com essa curiosidade de explorar novas funções documentadas!

Espero que possa ter lhe ajudado!