1
resposta

Porque não quebra no ponto ?

nltk.tokenize.word_tokenize("Aquele cara é um genio?Nao.Ele nao é um genius!")

Gera: ['Aquele', 'cara', '\xc3\xa9', 'um', 'genio', '?', 'Nao.Ele', 'nao', '\xc3\xa9', 'um', 'genius', '!']

Ele não "tokenizou": 'Não.Ele'

Se coloca um espaço depois do ponto, funciona. Temos como evitar isso !?

1 resposta

Fala ai Elissandro, de boa ?

Cara dá uma olhadinha nisso, pode te ajudar a solucionar : http://www.nltk.org/api/nltk.tokenize.html