Início Profile Projeto
Avatar de

Fabiana de Souza

Pandas: entradas e saídas

  • python

pandas-entradas-e-saidas

Badge em Desenvolvimento

Badge code size

🪧 Vitrine.Dev
Nome Pandas: entradas e saídas
🏷️ Tecnologias python
🚀 URL https://github.com/fab-souza/pandas-entradas-e-saidas/
🔥 Desafio Conteúdo do curso Pandas: formatos diferentes de entrada e saída (IO)

Sobre o curso 📚

O curso simula o desenvolvimento do banco de dados de uma escola de programação, iniciando com arquivos no formato json, compostos por nomes de alunos, sua região, sua frequência, sua posição no rank e gênero, que serviu como fonte para os nomes. Em seguida, foi atribuído, de forma randômica, um id, email e número de cursos para cada aluno. Ao final, aprendi como fazer a exportação do dataframe no formato SQL e Excel, consequentemente, de como fazer a leitura destes arquivos.

Minha prática 👩🏻‍💻

Pensei em fazer algo semelhante, ao usar o dataset US Baby Name Popularity, disponível no Kaggle, e para a parte dos cursos, usei o College Majors and their Graduates, também do Kaggle.

O dataset de nomes contém uma quantidade maior do que 2 milhões de nomes, por isso limitei os registros até o ano de 2020 e foi reduzido a quase 32.000 registros. Desta seleção, há quase 29 mil registros únicos. Usei o .random, do Numpy, para atribuir um número para cada registro do dataframe, para se tornar o index, enquanto o id original se torna o número de registro do aluno. Ao invés de adicionar um email para cada aluno, criei uma nova variável que mostra a situação dos alunos, se eles ainda estão estudando, se já concluíram ou se o curso foi interrompido.

A partir do dataset sobre as graduações nos EUA, usei os 173 cursos para distribuir entre os alunos do dataframe que desenvolvi e fiz a exportação para o formato csv, json e html.

out csv

Para acessar o notebook que fiz no Kaggle, clique aqui.

Muito obrigada por chegar até aqui e até a próxima 🤗

Ferramentas utilizadas 🧰

python pandas numpy