Boa noite,
Estou começando os exercícios práticos do desafio final da Formação Data Science. Realizando o import dos dados que estão disponibilizados no GitHub (https://github.com/alura-cursos/formacao-data-science), fiz o teste e o dataset 'movies.csv' continha todos os 9742, porém, ao chegar no bloco 16 do notebook, o exercício tem o seguinte pedido:
Pergunta: gere uma nova feature, a média dos votos por filme
- Crie uma nova coluna chamada nota_media dentro do dataframe filmes
Dicas:
- Como filmeId já é o indice de seu dataframe filmes, se você possui uma série com o número de votos por filme, basta atribuir uma nova coluna normalmente que será usado o mesmo índice
Comecei com o seguinte código para criar uma Serie no Pandas, agrupando pela coluna 'filmeId e selecionando a média apenas da coluna 'nota':
nota_media_filme = notas.groupby('filmeId').mean()['nota']
Porém, ao fazer a chamada do método 'shape', o retorno foi 9724. Então, ao inserir os dados no DataFrame 'filmes' como é pedido no exercício, temos um erro por conta do tamanho dos objetos serem diferentes.
ValueError: Length of values does not match length of index
Como não temos mais instruções no enunciado, penso em três possibilidades: A primeira é checar aqui com o time da Alura se os dados estão corretos no Github. A segunda seria manipular a serie para que a mesma consiga ser colocada no DataFrame 'filmes'. A terceira é meu código estar errado e por isso estou recebendo este erro. Como prosseguir?