2
respostas

[Projeto] Explorando a nossa base dos filmes

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
tmdb = pd.read_csv("https://raw.githubusercontent.com/alura-cursos/data-science-analise-exploratoria/main/Aula_0/tmdb_5000_movies.csv")
tmdb.head()
sns.displot(tmdb["revenue"])
plt.title("Distribuição da receita dos filmes")
plt.show()
import matplotlib.pyplot as plt
sns.displot(tmdb["budget"])
plt.title("Distribuição do orçamento dos filmes")
plt.show()
tmdb.info()
com_faturamento = tmdb.query("revenue > 0")
sns.displot(com_faturamento["revenue"])
tmdb["original_language"].unique()
tmdb["original_language"].value_counts()
import seaborn as sns
import matplotlib.pyplot as plt

# Filtrar dados
filmes_validos = tmdb.query("vote_count > 10")

# Visualizar distribuição das notas
sns.displot(filmes_validos["vote_average"], bins=10)

plt.title("Distribuição das médias das notas (vote_average) - votos > 10")
plt.xlabel("Média das notas")
plt.ylabel("Frequência")

plt.show()
2 respostas

Oi, Cássio! Como vai?

Agradeço por compartilhar seu código com a comunidade Alura.

Gostei de ver sua preocupação em limpar os dados antes de analisar, como no caso de revenue > 0 e vote_count > 10, o que deixa sua análise mais consistente e confiável. Continue assim!

🤔Qual foi o insight mais interessante que voce conseguiu tirar dessa analise?

Alura Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

A confiabilidade de uma avaliação depende da quantidade de votos.