import pandas as pd
import seaborn as sns
filmes = pd.read_csv("https://raw.githubusercontent.com/alura-cursos/data-science-analise-exploratoria/main/Aula_0/ml-latest-small/movies.csv")
filmes.columns = ["filmeId", "titulo", "generos"]
filmes.head()
notas = pd.read_csv("https://raw.githubusercontent.com/alura-cursos/data-science-analise-exploratoria/main/Aula_0/ml-latest-small/ratings.csv")
notas.columns = ["usuarioId", "filmeId", "nota", "momento"]
media_toy_story = notas.query("filmeId==1")["nota"].mean()
print(f"Média das notas para Toy Story (filmeId=1): {media_toy_story}")
media_jumanji = notas.query("filmeId==2")["nota"].mean()
print(f"Média das notas para Jumanji (filmeId=2): {media_jumanji}")
medias_por_filme = notas.groupby("filmeId")["nota"].mean()
medias_por_filme.head()
import matplotlib.pyplot as plt
# Histograma
plt.figure()
medias_por_filme.plot(kind="hist")
plt.title("Histograma das médias por filme")
plt.xlabel("Média das notas")
plt.ylabel("Frequência")
plt.show()
# Boxplot
plt.figure()
sns.boxplot(x=medias_por_filme)
plt.title("Boxplot das médias por filme")
plt.xlabel("Média das notas")
plt.show()
medias_por_filme.describe()
import matplotlib.pyplot as plt
import seaborn as sns
plt.figure()
sns.histplot(medias_por_filme, bins=10)
plt.title("Distribuição das médias dos filmes")
plt.xlabel("Média das notas")
plt.ylabel("Frequência")
plt.show()