Porque não quebra no ponto ? | Machine Learning: avançando com tipos diferentes de classificação

1
resposta

por Elissandro Mendes

| 108.8k xp | 5 posts

nltk.tokenize.word_tokenize("Aquele cara é um genio?Nao.Ele nao é um genius!")

Gera: ['Aquele', 'cara', '\xc3\xa9', 'um', 'genio', '?', 'Nao.Ele', 'nao', '\xc3\xa9', 'um', 'genius', '!']

Ele não "tokenizou": 'Não.Ele'

Se coloca um espaço depois do ponto, funciona. Temos como evitar isso !?

1 resposta

por Matheus Brandino

| 4805.7k xp | 10196 posts

Alura Scuba Team

21/02/2018

Fala ai Elissandro, de boa ?

Cara dá uma olhadinha nisso, pode te ajudar a solucionar : http://www.nltk.org/api/nltk.tokenize.html

Garanta sua matrícula hoje e ganhe + 2 meses grátis