2
respostas

Análise exploratória de dados e mais gráficos

As medias deram diferente dos passados na aula, queria saber pq, afinal um erro atrapalharia qualquer analise.

filmeId usuarioId nota momento1 150.813084 3.897196 1.108719e+09 2 144.488889 3.366667 1.121961e+09 3 119.730769 3.538462 9.693386e+08 4 105.600000 2.600000 8.433518e+08 5 137.160000 3.480000 9.697530e+08

filmeId usuarioId nota momento 1 306.530233 3.92 1.129835e+09 2 329.554545 3.43 1.135805e+09 3 283.596154 3.25 1.005110e+09 4 219.857143 2.35 8.985789e+09

Anteriormente estava dando tudo certo, apartir do comando notas.groupby("filmeId").mean()

2 respostas

meu arquivo esta diferente: medias_por_filme.describe() count 6433.000000 mean 3.436251 std 0.853154 min 0.500000 25% 3.000000 50% 3.500000 75% 4.000000 max 5.000000

medias_por_filme.describe() count 9724.000000 mean 3.262448 std 0.869874 min 0.500000 25% 2.800000 50% 3.416667 75% 3.911765 max 5.000000

Oi Breno,

Repondendo sua pergunta sobre a importancia de tratar erros, é que eles te levam a chegar em conclusões erradas, por isso é preciso escolher a melhor técnica estatística para cada promblema.

Imagine por exemplo que você tem os valores (100, 100, 100, 100, 100, 100, 100, 100, 100, 1.000.000.000), são 10 valores que somam um total de um bilhao e novecentos.

Se você tirar a média desses valores vai obter como resposta 100.000.090. Com isso você acha que a maioria dos valores está próximo de 100 milhões. O que você sabe que não é verdade olhando os dados que coloquei. Nesse exemplo são apenas 10 entradas e é fácil de identificar o erro, mas imagine num banco de dados com bilhões de entradas, fica humanamente impossível validar o resultado visualmente.