1
resposta

[Bug] Notas retornando números avulsos

Usei o google colab para importar o pandas. Depois eu importei a base de dados que seria usada como exemplo para o curso.

Usei o seguinte código:

notas.head()

Ele me gerou o cabeçalho da tabela normalmente. Então logo depois usei esse código para me dar as notas que os usuários dão para os filmes de forma única:

notas['rating'].unique()

Nisso, ele me gera números estratosféricos. Até a média das notas, que deveria estar entre 0,5 e 5, fica com o número exorbitante de 13171.945327229505.

Como resolver?

No print acima, a última célula está nomeada "nota", pois pensei que retornando ao nome original resolveria. Até tentei usar a função round() do pandas para tentar deixar as notas 1 casa decimal, mas também não funcionou.

1 resposta

Olá, Paulino.

Tudo bem?

Desculpa a demora, estou respondendo esse tópico para tentar ajudar você e outros alunos que estiverem com essa mesma dúvida, e também para organizar o nosso fórum. Valeu :)

Pelo que você descreveu, parece que o problema está na leitura ou interpretação dos dados. O método unique() do pandas retorna todos os valores únicos em uma coluna, então se ele está retornando números estratosféricos, isso indica que esses números estão presentes na coluna 'rating' da sua base de dados.

Aqui estão algumas coisas que você pode tentar:

  1. Verifique a base de dados: Confira se os dados na coluna 'rating' estão corretos. Talvez exista algum erro na base de dados que você importou.

  2. Verifique o tipo de dados: Use o método dtypes para conferir o tipo de dado da coluna 'rating'. Se for algo diferente de um tipo numérico (como int ou float), você pode precisar converter essa coluna para um tipo numérico. Isso pode ser feito com o método astype(). Por exemplo: notas['rating'] = notas['rating'].astype(float).

  3. Verifique se há valores nulos ou NaN: Use o método isnull().sum() para verificar se há valores nulos na coluna 'rating'. Se houver, você precisará tratá-los de alguma forma, seja removendo essas linhas ou substituindo os valores nulos por algum outro valor.

Por exemplo:

print(notas['rating'].isnull().sum()) # para verificar a quantidade de valores nulos
notas = notas.dropna(subset=['rating']) # para remover as linhas com valores nulos na coluna 'rating'

Espero que essas sugestões te ajudem a identificar o problema. Lembre-se, é importante sempre conferir e entender bem os dados com os quais você está trabalhando. Espero ter ajudado e bons estudos!