2
respostas

[Dúvida] Análise dos diferentes histogramas da média de filmes

Na segunda aula, aprendemos a fazer o histograma usando o Seaborn e comparamos com o histograma gerado pelo Pandas.

Histograma gerado pelo Pandas

Histograma gerado pelo Seaborn

Ao comparar os gráficos, fiquei pensando que o gerado pelo Seaborn pode revelar uma tendência que não apareceu no outro: de haver uma consistência entre as notas de cada filme. Isso porque a média sobe consideravelmente nas notas possíveis de serem atribuídas aos filmes (exatas e terminadas em meio). Imagino que, quando um filme recebe notas muito diferentes, a média tenha mais casas decimais e valores mais quebrados.

Foi assim que verifiquei quais notas foram utilizadas pelos usuários:

Verificando as notas selecionaveis

Minhas dúvidas:

  • Essa análise está correta, ou pelo menos no caminho certo?
  • Como eu posso me aprofundar nessa hipótese?
  • Eu usei a melhor forma para verificar as notas selecionáveis?

Valeu!

2 respostas

Sua análise está no caminho certo e demonstra um bom entendimento dos dados. Ao aprofundar a análise com testes estatísticos e explorando outras visualizações, você poderá obter insights mais robustos sobre o comportamento dos usuários ao avaliar filmes. Ao apresentar seus resultados, contextualize-os com o objetivo da sua análise. Por exemplo: "A tendência de os usuários atribuírem notas mais arredondadas pode indicar uma simplificação do processo de avaliação, o que pode afetar a precisão das recomendações de filmes."

Vamos destrinchar sua hipótese:

Hipótese: Usuários tendem a dar notas mais arredondadas (0.5, 1.0, 1.5, etc.) e menos notas com casas decimais intermediárias.

Evidência visual: O histograma do Seaborn, com mais detalhes e a curva de densidade, sugere uma concentração maior de avaliações nas notas "redondas".

Justificativa: A concentração em notas arredondadas pode indicar uma tendência dos usuários de simplificar a avaliação, optando por valores mais fáceis de lembrar e comparar.

Como aprofundar essa análise:

  • Teste de Qui-quadrado: Compare a distribuição observada das notas com uma distribuição uniforme (ou outra distribuição esperada) para verificar se a diferença é estatisticamente significativa.
  • Teste de Kolmogorov-Smirnov: Avalie se a distribuição das notas se ajusta a uma distribuição teórica específica (normal, exponencial, etc.).
  • Análise exploratória de dados: Boxplot: Visualize a distribuição das notas por filme ou gênero para identificar padrões.
  • Correlação: Verifique se há alguma correlação entre as notas e outras variáveis (por exemplo, popularidade do filme, gênero, ano de lançamento).
  • Análise de cluster: Agrupe os filmes com base nas distribuições de notas para identificar padrões de avaliação.

Questões subjetivas:

  • Efeito de arredondamento: Pesquise sobre o efeito de arredondamento em avaliações e como ele pode influenciar o comportamento dos usuários.
  • Escalas de Likert: Entenda como as escalas de Likert (comumente usadas para avaliar filmes) podem influenciar a forma como as pessoas atribuem notas.

A sua abordagem de agrupar as notas e contar a frequência foi excelente! Essa é uma maneira simples e eficaz de visualizar quais notas são mais utilizadas. Você pode ajustar o número de bins no histograma para destacar as notas mais frequentes. Pode tb criar uma tabela com a contagem de cada nota pode fornecer uma visão mais detalhada. pode fazer um gráfico de barras: Visualizar a frequência de cada nota em um gráfico de barras pode ser mais intuitivo para algumas pessoas.

espero ter ajudado!

Obrigada, Felipe, você trouxe vários conceitos novos para mim, vou pesquisar a respeito.

Mas acho que não consegui me expressar corretamente.

Veja, a nota que um usuário atribui a um filme só pode ser número inteiro ou terminado em ".5". Vemos isso com esse comando:

notas["nota"].unique()
array([4. , 5. , 3. , 2. , 1. , 4.5, 3.5, 2.5, 0.5, 1.5])

Pensemos agora na nota média de cada filme. Se ele receber muitas notas iguais, a média será a própria nota. Por outro lado, se o filme receber notas muito variadas, a tendência pode ser uma média com muitas casas decimais.

O que observamos no histograma gerado pelo Seaborn é uma prevalência de médias inteiras ou terminadas em ".5" para cada filme.

Hipótese: diferentes usuários, ao avaliarem um determinado filme, tendem a dar a mesma nota.

Imagino que, para verificar a hipótese seria necessário:

  • Calcular a média e o desvio padrão das notas agrupadas por filme
  • Verificar se médias inteiras e terminadas em ".5" tem um valor baixo de desvio padrão
  • Calcular a média dos desvios padrão dos filmes (isso é equivalente a calcular o desvio padrão para todo o conjunto de dados?)
  • Verificar se a média dos desvios padrão dos filmes pode ser considerada baixa

Acho que o raciocínio está correto mas não sei como fazer essa verificação.

Agradeço novamente!