[Dúvida] Análise dos diferentes histogramas da média de filmes

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

2
respostas

Referente ao curso Data Science: explorando e analisando dados

por Alice Cruvinel Bonafé

| 11.6k xp | 2 posts

Na segunda aula, aprendemos a fazer o histograma usando o Seaborn e comparamos com o histograma gerado pelo Pandas.

Histograma gerado pelo Pandas

Histograma gerado pelo Seaborn

Ao comparar os gráficos, fiquei pensando que o gerado pelo Seaborn pode revelar uma tendência que não apareceu no outro: de haver uma consistência entre as notas de cada filme. Isso porque a média sobe consideravelmente nas notas possíveis de serem atribuídas aos filmes (exatas e terminadas em meio). Imagino que, quando um filme recebe notas muito diferentes, a média tenha mais casas decimais e valores mais quebrados.

Foi assim que verifiquei quais notas foram utilizadas pelos usuários:

Verificando as notas selecionaveis

Minhas dúvidas:

Essa análise está correta, ou pelo menos no caminho certo?
Como eu posso me aprofundar nessa hipótese?
Eu usei a melhor forma para verificar as notas selecionáveis?

Valeu!

2 respostas

por Felipe

| 125.2k xp | 119 posts

21/11/2024

Sua análise está no caminho certo e demonstra um bom entendimento dos dados. Ao aprofundar a análise com testes estatísticos e explorando outras visualizações, você poderá obter insights mais robustos sobre o comportamento dos usuários ao avaliar filmes. Ao apresentar seus resultados, contextualize-os com o objetivo da sua análise. Por exemplo: "A tendência de os usuários atribuírem notas mais arredondadas pode indicar uma simplificação do processo de avaliação, o que pode afetar a precisão das recomendações de filmes."

Vamos destrinchar sua hipótese:

Hipótese: Usuários tendem a dar notas mais arredondadas (0.5, 1.0, 1.5, etc.) e menos notas com casas decimais intermediárias.

Evidência visual: O histograma do Seaborn, com mais detalhes e a curva de densidade, sugere uma concentração maior de avaliações nas notas "redondas".

Justificativa: A concentração em notas arredondadas pode indicar uma tendência dos usuários de simplificar a avaliação, optando por valores mais fáceis de lembrar e comparar.

Como aprofundar essa análise:

Teste de Qui-quadrado: Compare a distribuição observada das notas com uma distribuição uniforme (ou outra distribuição esperada) para verificar se a diferença é estatisticamente significativa.
Teste de Kolmogorov-Smirnov: Avalie se a distribuição das notas se ajusta a uma distribuição teórica específica (normal, exponencial, etc.).
Análise exploratória de dados: Boxplot: Visualize a distribuição das notas por filme ou gênero para identificar padrões.
Correlação: Verifique se há alguma correlação entre as notas e outras variáveis (por exemplo, popularidade do filme, gênero, ano de lançamento).
Análise de cluster: Agrupe os filmes com base nas distribuições de notas para identificar padrões de avaliação.

Questões subjetivas:

Efeito de arredondamento: Pesquise sobre o efeito de arredondamento em avaliações e como ele pode influenciar o comportamento dos usuários.
Escalas de Likert: Entenda como as escalas de Likert (comumente usadas para avaliar filmes) podem influenciar a forma como as pessoas atribuem notas.

A sua abordagem de agrupar as notas e contar a frequência foi excelente! Essa é uma maneira simples e eficaz de visualizar quais notas são mais utilizadas. Você pode ajustar o número de bins no histograma para destacar as notas mais frequentes. Pode tb criar uma tabela com a contagem de cada nota pode fornecer uma visão mais detalhada. pode fazer um gráfico de barras: Visualizar a frequência de cada nota em um gráfico de barras pode ser mais intuitivo para algumas pessoas.

espero ter ajudado!

por Alice Cruvinel Bonafé

| 11.6k xp | 2 posts

21/11/2024

Obrigada, Felipe, você trouxe vários conceitos novos para mim, vou pesquisar a respeito.

Mas acho que não consegui me expressar corretamente.

Veja, a nota que um usuário atribui a um filme só pode ser número inteiro ou terminado em ".5". Vemos isso com esse comando:

notas["nota"].unique()
array([4. , 5. , 3. , 2. , 1. , 4.5, 3.5, 2.5, 0.5, 1.5])

Pensemos agora na nota média de cada filme. Se ele receber muitas notas iguais, a média será a própria nota. Por outro lado, se o filme receber notas muito variadas, a tendência pode ser uma média com muitas casas decimais.

O que observamos no histograma gerado pelo Seaborn é uma prevalência de médias inteiras ou terminadas em ".5" para cada filme.

Hipótese: diferentes usuários, ao avaliarem um determinado filme, tendem a dar a mesma nota.

Imagino que, para verificar a hipótese seria necessário:

Calcular a média e o desvio padrão das notas agrupadas por filme
Verificar se médias inteiras e terminadas em ".5" tem um valor baixo de desvio padrão
Calcular a média dos desvios padrão dos filmes (isso é equivalente a calcular o desvio padrão para todo o conjunto de dados?)
Verificar se a média dos desvios padrão dos filmes pode ser considerada baixa

Acho que o raciocínio está correto mas não sei como fazer essa verificação.

Agradeço novamente!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP