total_de_votos com 'NaN'

Pedro Miguel · 2020-10-22 19:17

Ao tentar ordenar os filmes de acordo com a coluna "total_de_votos" há muitos filmes com "NaN": ``` filmes.sort_values("total_de_votos", ascending=False) ``` Resultado: <b

Oi Pedro, tudo bem?

Os NaN não influenciam negativamente o andamento do seu aprendizado. Na real, esse erro acontece com os filmes que simplesmente não receberam nenhuma nota pelos usuários. Para verificar isso, você pode criar no final do seu notebook (pós vídeo 1.4) as seguintes linhas de cógido:

notas = notas.set_index("filmeId")
notas.loc[356]

Repare que ao utilizarmos o id 356 (que é do filme Forrest Gump (1994)), várias linhas retornam. Essas linhas são as notas dadas a pelos usuários a ele.

filmeId    usuarioId    nota    momento
356    1    4.0    964980962
356    6    5.0    845553200
356    7    5.0    1106635915
356    8    3.0    839463527
356    10    3.5    1455301685
...    ...    ...    ...
356    605    3.0    1277097509
356    606    4.0    1171231370
356    608    3.0    1117162603
356    609    4.0    847220869
356    610    3.0    1493844769

Quando executamos o mesmo código para o id 34482, (Browning Version, The (1951)) que tem o NaN como resultado no total_de_votos, repare que recebemos um KeyError como retorno. Ou seja, não existe nenhum valor encontrado na busca por essa chave. Em resumo, nenhum usuário deu nota para ele.

Daí, o NaN. O pandas não consegue calcular um número para um valor que não existe. :)

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP