Quando eu rodei o código passado na atividade 2 me deu o seguinte erro:
nltk.download('punkt')
palavras_separadas = nltk.tokenize.word_tokenize(texto_exemplo)
---------------------------------------------------------------------------
NameError Traceback (most recent call last)
<ipython-input-26-494f48300f35> in <module>()
----> 1 nltk.download('punkt')
2 palavras_separadas = nltk.tokenize.word_tokenize(texto_exemplo)
NameError: name 'nltk' is not defined
Consultando o Forum, nosso colega Gabriel Piazza sugere o código abaixo, que funcionou perfeitamente:
from nltk.tokenize import TweetTokenizer
tknzr = TweetTokenizer()
palavras_separadas = tknzr.tokenize(texto_exemplo)
print(palavras_separadas)
Porém, quando chegamos na atividade 5, na contagem de palavras o resultado é de 404.796. O código utilizado foi:
lista_tokens = tknzr.tokenize(artigos)
lista_palavras = separa_palavras(lista_tokens)
print(f'O número de palavras é {len(lista_palavras)}')
Vou avançando no curso, mas gostaria de entender o motivo de não ter funcionado o código da atividade 2, executada pelo instrutor e se o resultado diferente alterará o andamento do curso até o final.
Obrigado.