Ao rodar a tokenização, com a a coluna de tratamento_3, voce não utiliza a lista com as stopwords sem acentuação, mas a padrão das aulas anteriores. Acredito que deveria ser usado as stopwords_sem_acento.
Ao rodar a tokenização, com a a coluna de tratamento_3, voce não utiliza a lista com as stopwords sem acentuação, mas a padrão das aulas anteriores. Acredito que deveria ser usado as stopwords_sem_acento.
Olá Nicholas.
Você está correto. Na aula 3 atividade 2 (04:13) ele cria o stopwords_sem_acento e na aula 4 atividade 3 (00:59) quando ele vai aplicar o novo tratamento ele utiliza o pontuacao_stopwords.
No tempo 03:26 na aula 3 atividade 2 ele explica que ele aplica o unidecode() nos stop words para o caso de ter acontecido de algum erro de digitação na resenha, por exemplo um não sem acento e dessa maneira não o teríamos removido.
Acredito que não temos muita perda nos resultados por esse engano, mas obrigado pelo aviso, vamos sinalizar isso nas aulas.
Bons Estudos.