Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Desafio: 7 days of code

O desafio escolhido foi:

7 Days of Code Machine Learning (Spotify)

Objetivo
Analisar dados do Spotify e aplicar técnicas de Machine Learning para prever a popularidade das músicas, passando por todas as etapas de um projeto real, da coleta de dados à validação do modelo.

Cronograma dos 7 Dias

Dia 1: Coleta e organização dos dados
• Análise exploratória inicial.
• Uso do Jupyter Notebook para preparar o ambiente.

Dia 2: Pré-processamento e classificação
• Limpeza e transformação dos dados brutos.
• Criação de um modelo para prever se uma música será popular.

Dia 3 : Divisão dos dados e validação
• Separar dados em treino, validação e teste.
• Aplicar validação cruzada para evitar overfitting ( Aprende demais os dados e não generaliza.).

Dia 4: Criação do modelo inicial (baseline)
• Implementar Regressão Logística.
• Identificar problemas de viés ou variância.

Dia 5: Avaliação do modelo
• Calcular métricas de desempenho: acurácia, precisão, recall e F1-score.

Dia 6: Reamostragem e balanceamento
• Aplicar técnicas de oversamplingm ( aumenta a classe menor) e undersampling( diminui a classe maior) para equilibrar classes.

Dia 7: Aplicação e serialização do modelo
• Testar o modelo final nos dados de teste.
• Salvar resultados e serializar o modelo.
• Realizar desafios extras para consolidar o aprendizado.

1 resposta
solução!

Olá, Brendo. Como vai?

Excelente escolha de desafio! O 7 Days of Code de Machine Learning com dados do Spotify é um dos projetos de portfólio mais ricos e completos que você poderia escolher.

O grande mérito do seu cronograma é que ele respeita rigorosamente o Pipeline de Ciência de Dados (o ciclo de vida real de um projeto de IA). Muitos iniciantes acham que fazer Machine Learning é apenas aplicar o modelo (o seu Dia 4), mas a verdade é que cerca de 80% do tempo de um Cientista de Dados é gasto nos Dias 1, 2 e 6 — limpando, entendendo e balanceando os dados para que o modelo não receba "lixo" e gere previsões erradas.

Para agregar ainda mais valor ao seu planejamento e te dar insumos teóricos para enfrentar as etapas mais críticas de cada dia, preparei um guia prático com os conceitos-chave que você vai encarar:


Os Pontos Críticos da sua Jornada de 7 Dias

Dias 2 e 6: O Desafio do Balanceamento de Dados

No ecossistema do Spotify, a esmagadora maioria das músicas lançadas diariamente possui baixa popularidade, enquanto apenas uma pequena fração vira um "hit". Isso significa que o seu banco de dados original será altamente desbalanceado.

Se você aplicar o modelo sem tratar isso, a IA vai aprender que "é mais fácil dizer que toda música será impopular" para acertar a maior parte dos casos, gerando um modelo burro. As técnicas de reamostragem que você citou no Dia 6 resolvem isso:

  • Oversampling (SMOTE): Cria dados sintéticos (falsos, mas estatisticamente idênticos) das músicas populares para igualar a quantidade.
  • Undersampling: Deleta aleatoriamente uma parte das músicas impopulares para que o modelo veja uma quantidade equilibrada de cada classe.

Dia 3: Validação Cruzada (Cross-Validation) contra o Overfitting

Sua definição de overfitting foi cirúrgica: o modelo decora os dados de treino em vez de aprender o padrão, falhando miseravelmente quando recebe uma música nova.

Para evitar isso, a Validação Cruzada (K-Fold) divide o seu banco de dados em $K$ partes (geralmente 5 ou 10). O computador treina o modelo usando 4 partes e testa na 1ª. Depois, treina em outras 4 partes e testa na 2ª, rotacionando esse processo. Isso garante que o modelo seja testado em todo o espectro do seu conjunto de dados.

Dia 5: A Armadilha da Acurácia e o Uso das Métricas Corretas

No Dia 5, quando você avaliar o modelo, perceberá que a Acurácia (taxa de acerto geral) pode te enganar em dados desbalanceados. Por isso, foque nas outras três métricas que você listou:

  • Precisão: De todas as músicas que o modelo disse que seriam populares, quantas realmente foram? (Evita falsos positivos).
  • Recall (Sensibilidade): De todas as músicas que eram realmente populares, quantas o modelo conseguiu encontrar? (Evita falsos negativos).
  • F1-Score: É a média harmônica entre a Precisão e o Recall, sendo a métrica mais confiável para validar o sucesso do seu projeto.

Dica de Engenharia de Prompt para os seus 7 dias:

Como você está estudando a personalização da rotina com o ChatGPT, use a IA como seu Stack Overflow privado ao longo da semana. No Dia 7, por exemplo, para fazer a serialização (salvar o modelo em um arquivo físico para usar em um aplicativo), você pode usar um prompt focado no código:

"Atue como um Engenheiro de Machine Learning sênior. Meu modelo de Regressão Logística treinado no Jupyter Notebook se chama modelo_spotify. Me dê o código em Python usando a biblioteca pickle ou joblib para serializar (salvar) esse modelo em um arquivo .pkl e me mostre como carregá-lo novamente em outro script."

Você estruturou um roadmap digno de um profissional da área de dados. Mantenha o foco dia após dia e execute cada etapa com paciência, documentando seus aprendizados no GitHub. Com certeza será um projeto espetacular para o seu portfólio!

Espero que possa ter lhe ajudado!