with open("dados/artigos.txt", "r" , encoding='utf8') as f:
artigos = f.read()
import nltk
nltk.download('punkt')
def separa_palavras(lista_tokens):
lista_palavras = []
for tokens in lista_tokens:
if tokens.isalpha():
lista_palavras.append(tokens)
return lista_palavras
tokens_artigos = nltk.tokenize.word_tokenize(artigos)
separa_palavras(tokens_artigos)
len(separa_palavras(tokens_artigos))
Meu resultado foi 403106, não entendi o motivo da diferença, alguém poderia me ajudar por favor?
Obrigada.