with open("dados/artigos.txt", "r" , encoding='utf8') as f:
    artigos = f.read()
import nltk
nltk.download('punkt')
def separa_palavras(lista_tokens):
    lista_palavras = []
    for tokens in lista_tokens:
        if tokens.isalpha():
            lista_palavras.append(tokens)
    return lista_palavras
tokens_artigos = nltk.tokenize.word_tokenize(artigos)
separa_palavras(tokens_artigos)
len(separa_palavras(tokens_artigos))Meu resultado foi 403106, não entendi o motivo da diferença, alguém poderia me ajudar por favor?
Obrigada.
 
             
            