Pandas: entradas e saídas
pandas-entradas-e-saidas
🪧 Vitrine.Dev | |
---|---|
✨ Nome | Pandas: entradas e saídas |
🏷️ Tecnologias | python |
🚀 URL | https://github.com/fab-souza/pandas-entradas-e-saidas/ |
🔥 Desafio | Conteúdo do curso Pandas: formatos diferentes de entrada e saída (IO) |
Sobre o curso 📚
O curso simula o desenvolvimento do banco de dados de uma escola de programação, iniciando com arquivos no formato json, compostos por nomes de alunos, sua região, sua frequência, sua posição no rank e gênero, que serviu como fonte para os nomes. Em seguida, foi atribuído, de forma randômica, um id, email e número de cursos para cada aluno. Ao final, aprendi como fazer a exportação do dataframe no formato SQL e Excel, consequentemente, de como fazer a leitura destes arquivos.
Minha prática 👩🏻💻
Pensei em fazer algo semelhante, ao usar o dataset US Baby Name Popularity, disponível no Kaggle, e para a parte dos cursos, usei o College Majors and their Graduates, também do Kaggle.
O dataset de nomes contém uma quantidade maior do que 2 milhões de nomes, por isso limitei os registros até o ano de 2020 e foi reduzido a quase 32.000 registros. Desta seleção, há quase 29 mil registros únicos. Usei o .random, do Numpy, para atribuir um número para cada registro do dataframe, para se tornar o index, enquanto o id original se torna o número de registro do aluno. Ao invés de adicionar um email para cada aluno, criei uma nova variável que mostra a situação dos alunos, se eles ainda estão estudando, se já concluíram ou se o curso foi interrompido.
A partir do dataset sobre as graduações nos EUA, usei os 173 cursos para distribuir entre os alunos do dataframe que desenvolvi e fiz a exportação para o formato csv, json e html.
Para acessar o notebook que fiz no Kaggle, clique aqui.
Muito obrigada por chegar até aqui e até a próxima 🤗