2
respostas

[Projeto] Analisando os dados dos filmes

import pandas as pd
import seaborn as sns
filmes = pd.read_csv("https://raw.githubusercontent.com/alura-cursos/data-science-analise-exploratoria/main/Aula_0/ml-latest-small/movies.csv")
filmes.columns = ["filmeId", "titulo", "generos"]
filmes.head()

notas = pd.read_csv("https://raw.githubusercontent.com/alura-cursos/data-science-analise-exploratoria/main/Aula_0/ml-latest-small/ratings.csv")
notas.columns = ["usuarioId", "filmeId", "nota", "momento"]

media_toy_story = notas.query("filmeId==1")["nota"].mean()
print(f"Média das notas para Toy Story (filmeId=1): {media_toy_story}")

media_jumanji = notas.query("filmeId==2")["nota"].mean()
print(f"Média das notas para Jumanji (filmeId=2): {media_jumanji}")
medias_por_filme = notas.groupby("filmeId")["nota"].mean()
medias_por_filme.head()
import matplotlib.pyplot as plt

# Histograma
plt.figure()
medias_por_filme.plot(kind="hist")
plt.title("Histograma das médias por filme")
plt.xlabel("Média das notas")
plt.ylabel("Frequência")
plt.show()

# Boxplot
plt.figure()
sns.boxplot(x=medias_por_filme)
plt.title("Boxplot das médias por filme")
plt.xlabel("Média das notas")
plt.show()
medias_por_filme.describe()
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure()

sns.histplot(medias_por_filme, bins=10)

plt.title("Distribuição das médias dos filmes")
plt.xlabel("Média das notas")
plt.ylabel("Frequência")

plt.show()
2 respostas

Oi, Cássio! Como vai?

Agradeço por compartilhar seu código com a comunidade Alura.

Ficou claro que você entendeu bem o uso de groupby para calcular médias e também explorou diferentes formas de visualizar os dados, o que é importante em análise exploratória. Continue assim!

🤔 Uma pergunta para te fazer refletir um pouco mais sobre os dados: o que essa distribuição das médias te diz sobre o comportamento dos usuários ao avaliar filmes?

Conteúdo relacionado:
Alura Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

As avaliações são moderadas e concentradas, os usuários evitam notas em extremos (muito baixo ou muito alto) e existe uma leve tendência a avaliações positivas.