Boa tarde pessoal,
preciso criar uma nuvem de palavras tratando os dados de uma coluna de comentários; consegui fazer no python usando pandas e outras bibliotecas, porém preciso eliminar os artigos e alguns caracteres especiais (a,e,i,o,u, etc) para que eu possa gerar um csv e importar no Tableau.
Alguma dica? Tentei usar o word_tokenize mas está apresentando um erro:
ERRO ABAIXO:
File c:\AppData\Local\Programs\Python\Python310\lib\site-packages\nltk\tokenize_init__.py:129, in wordtokenize(text, language, preserve_line) 114 def word_tokenize(text, language="english", preserve_line=False): 115 """ 116 Return a tokenized copy of text, 117 using NLTK's recommended word tokenizer (...) 127 :type preserve_line: bool 128 """ --> 129 sentences = [text] if preserve_line else sent_tokenize(text, language) 130 return [ 131 token for sent in sentences for token in treebankword_tokenizer.tokenize(sent) 132 ]
File c:\Users\AppData\Local\Programs\Python\Python310\lib\site-packages\nltk\tokenize_init__.py:106, in senttokenize(text, language) 96 def sent_tokenize(text, language="english"): 97 """ ...
- 'D:\\nltk_data'
- 'E:\\nltk_data'
- ''
Ou se alguém tem outra sugestao de como fazer, fico aberto a sugestão.