Preparação do ambiente
No Google Colab, começando instalando as dependências e importando as bibliotecas principais do projeto:
! pip install pandas scikit - aprenda mlflow transformers gradio
import pandas as pd
from sklearn.model_selection import train_test_split
import mlflow
import gradio as gr
from transformers import pipeline
conjunto de dados de grupo
Em seguida, crie o arquivo user_data.csvcom os dados fornecidos:
data = """user_id,song_id,play_count,last_played
1,101,5,2023-10-01
1,102,3,2023-10-02
1,103,2,2023-10-03
2,101,4,2023-10-01
2,104,6,2023-10-02
2,105,1,2023-10-03
3,106,7,2023-10-01
3,107,3,2023-10-02
3,108,2,2023-10-03
1,104,6,2023-10-03
2,101,7,2023-10-03
3,103,3,2023-10-01
3,104,4,2023-10-02
1,106,4,2023-10-02
2,104,2,2023-10-03
3,105,1,2023-10-03
"""
with open("user_data.csv", "w") as f:
f.write(data)
print("Arquivo user_data.csv criado com sucesso!")
Leitura e verificação dos dados
Depois, faço a leitura do arquivo para confirmar se o dataset foi carregado corretamente:
df = pd.read_csv ( "user_data.csv" ) print ( df.head ( )) print ( df.info ( ) )
Pré-processamento inicial
Converta a coluna last_playedpara formato de dados e verifique possíveis valores ausentes:
df["last_played"] = pd.to_datetime(df["last_played"])
print(df.isnull().sum())