1
resposta

[Dúvida] Análise dos diferentes histogramas da média de filmes

Na segunda aula, aprendemos a fazer o histograma usando o Seaborn e comparamos com o histograma gerado pelo Pandas.

Histograma gerado pelo Pandas

Histograma gerado pelo Seaborn

Ao comparar os gráficos, fiquei pensando que o gerado pelo Seaborn pode revelar uma tendência que não apareceu no outro: de haver uma consistência entre as notas de cada filme. Isso porque a média sobe consideravelmente nas notas possíveis de serem atribuídas aos filmes (exatas e terminadas em meio). Imagino que, quando um filme recebe notas muito diferentes, a média tenha mais casas decimais e valores mais quebrados.

Foi assim que verifiquei quais notas foram utilizadas pelos usuários:

Verificando as notas selecionaveis

Minhas dúvidas:

  • Essa análise está correta, ou pelo menos no caminho certo?
  • Como eu posso me aprofundar nessa hipótese?
  • Eu usei a melhor forma para verificar as notas selecionáveis?

Valeu!

1 resposta

Sua análise está no caminho certo e demonstra um bom entendimento dos dados. Ao aprofundar a análise com testes estatísticos e explorando outras visualizações, você poderá obter insights mais robustos sobre o comportamento dos usuários ao avaliar filmes. Ao apresentar seus resultados, contextualize-os com o objetivo da sua análise. Por exemplo: "A tendência de os usuários atribuírem notas mais arredondadas pode indicar uma simplificação do processo de avaliação, o que pode afetar a precisão das recomendações de filmes."

Vamos destrinchar sua hipótese:

Hipótese: Usuários tendem a dar notas mais arredondadas (0.5, 1.0, 1.5, etc.) e menos notas com casas decimais intermediárias.

Evidência visual: O histograma do Seaborn, com mais detalhes e a curva de densidade, sugere uma concentração maior de avaliações nas notas "redondas".

Justificativa: A concentração em notas arredondadas pode indicar uma tendência dos usuários de simplificar a avaliação, optando por valores mais fáceis de lembrar e comparar.

Como aprofundar essa análise:

  • Teste de Qui-quadrado: Compare a distribuição observada das notas com uma distribuição uniforme (ou outra distribuição esperada) para verificar se a diferença é estatisticamente significativa.
  • Teste de Kolmogorov-Smirnov: Avalie se a distribuição das notas se ajusta a uma distribuição teórica específica (normal, exponencial, etc.).
  • Análise exploratória de dados: Boxplot: Visualize a distribuição das notas por filme ou gênero para identificar padrões.
  • Correlação: Verifique se há alguma correlação entre as notas e outras variáveis (por exemplo, popularidade do filme, gênero, ano de lançamento).
  • Análise de cluster: Agrupe os filmes com base nas distribuições de notas para identificar padrões de avaliação.

Questões subjetivas:

  • Efeito de arredondamento: Pesquise sobre o efeito de arredondamento em avaliações e como ele pode influenciar o comportamento dos usuários.
  • Escalas de Likert: Entenda como as escalas de Likert (comumente usadas para avaliar filmes) podem influenciar a forma como as pessoas atribuem notas.

A sua abordagem de agrupar as notas e contar a frequência foi excelente! Essa é uma maneira simples e eficaz de visualizar quais notas são mais utilizadas. Você pode ajustar o número de bins no histograma para destacar as notas mais frequentes. Pode tb criar uma tabela com a contagem de cada nota pode fornecer uma visão mais detalhada. pode fazer um gráfico de barras: Visualizar a frequência de cada nota em um gráfico de barras pode ser mais intuitivo para algumas pessoas.

espero ter ajudado!