0
respostas

[Projeto] Analisando distribuição com boxplot

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Carregar dados
filmes = pd.read_csv("https://raw.githubusercontent.com/alura-cursos/data-science-analise-exploratoria/main/Aula_0/ml-latest-small/movies.csv")
filmes.columns = ["filmeId", "titulo", "generos"]

notas = pd.read_csv("https://raw.githubusercontent.com/alura-cursos/data-science-analise-exploratoria/main/Aula_0/ml-latest-small/ratings.csv")
notas.columns = ["usuarioId", "filmeId", "nota", "momento"]

# Filtrar os 3 filmes (IDs conhecidos)
ids_filmes = [1, 2, 3]

dados_filmes = notas.query("filmeId in @ids_filmes")

# Juntar com nomes dos filmes
dados_filmes = dados_filmes.merge(filmes, on="filmeId")

# Criar boxplot
plt.figure(figsize=(8, 5))

sns.boxplot(
    data=dados_filmes,
    x="titulo",
    y="nota",
    palette="Set2"
)

plt.title("Distribuição das notas - Toy Story, Jumanji e Grumpier Old Men")
plt.xlabel("Filmes")
plt.ylabel("Notas")

plt.xticks(rotation=20)
plt.show()