1
resposta

Dúvida no exercício da formação Data Science

Boa noite,

Estou começando os exercícios práticos do desafio final da Formação Data Science. Realizando o import dos dados que estão disponibilizados no GitHub (https://github.com/alura-cursos/formacao-data-science), fiz o teste e o dataset 'movies.csv' continha todos os 9742, porém, ao chegar no bloco 16 do notebook, o exercício tem o seguinte pedido:

Pergunta: gere uma nova feature, a média dos votos por filme

- Crie uma nova coluna chamada nota_media dentro do dataframe filmes

Dicas:

- Como filmeId já é o indice de seu dataframe filmes, se você possui uma série com o número de votos por filme, basta atribuir uma nova coluna normalmente que será usado o mesmo índice

Comecei com o seguinte código para criar uma Serie no Pandas, agrupando pela coluna 'filmeId e selecionando a média apenas da coluna 'nota':

nota_media_filme = notas.groupby('filmeId').mean()['nota']

Porém, ao fazer a chamada do método 'shape', o retorno foi 9724. Então, ao inserir os dados no DataFrame 'filmes' como é pedido no exercício, temos um erro por conta do tamanho dos objetos serem diferentes.

ValueError: Length of values does not match length of index

Como não temos mais instruções no enunciado, penso em três possibilidades: A primeira é checar aqui com o time da Alura se os dados estão corretos no Github. A segunda seria manipular a serie para que a mesma consiga ser colocada no DataFrame 'filmes'. A terceira é meu código estar errado e por isso estou recebendo este erro. Como prosseguir?

1 resposta

Olá Lucas,

Eu estou fazendo esse projeto atualmente e não tive esse problema, então provavelmente foi feita alguma modificação em notas. Talvez até mesmo nos códigos a frente, e depois essa parte nota_media_filme = notas.groupby('filmeId').mean()['nota'] foi executada novamente com o notas alterado.

Se for esse o caso, apenas reiniciar tudo deve resolver ('Restart & Run All' no Jupyter ou 'Restart and run all...' no Colaboratory).