1
resposta

total_de_votos com 'NaN'

Ao tentar ordenar os filmes de acordo com a coluna "total_de_votos" há muitos filmes com "NaN":

filmes.sort_values("total_de_votos", ascending=False)

Resultado:

filmeId    titulo    generos    total_de_votos            
356    Forrest Gump (1994)    Comedy|Drama|Romance|War    329.0
318    Shawshank Redemption, The (1994)    Crime|Drama    317.0
...
34482    Browning Version, The (1951)    Drama    NaN
85565    Chalet Girl (2011)    Comedy|Romance    NaN

Poderiam me ajudar? Ou isso não atrapalhará as aulas do curso?

1 resposta

Oi Pedro, tudo bem?

Os NaN não influenciam negativamente o andamento do seu aprendizado. Na real, esse erro acontece com os filmes que simplesmente não receberam nenhuma nota pelos usuários. Para verificar isso, você pode criar no final do seu notebook (pós vídeo 1.4) as seguintes linhas de cógido:

notas = notas.set_index("filmeId")
notas.loc[356]

Repare que ao utilizarmos o id 356 (que é do filme Forrest Gump (1994)), várias linhas retornam. Essas linhas são as notas dadas a pelos usuários a ele.

filmeId    usuarioId    nota    momento
356    1    4.0    964980962
356    6    5.0    845553200
356    7    5.0    1106635915
356    8    3.0    839463527
356    10    3.5    1455301685
...    ...    ...    ...
356    605    3.0    1277097509
356    606    4.0    1171231370
356    608    3.0    1117162603
356    609    4.0    847220869
356    610    3.0    1493844769

Quando executamos o mesmo código para o id 34482, (Browning Version, The (1951)) que tem o NaN como resultado no total_de_votos, repare que recebemos um KeyError como retorno. Ou seja, não existe nenhum valor encontrado na busca por essa chave. Em resumo, nenhum usuário deu nota para ele.

Daí, o NaN. O pandas não consegue calcular um número para um valor que não existe. :)