Hi, pessoas :)
Queria compartilhar com vocês uma boa prática do pandas que é não iterar sobre o DataFrame usando for. O pandas tem algumas funções de iteração que deixam o código mais rápido e legível.
Esse trecho aqui, por exemplo:
frase_processada = list()
for opiniao in resenha["tratamento_1"]:
nova_frase = list()
palavras_texto = token_pontuacao.tokenize(opiniao)
for palavra in palavras_texto:
if palavra not in pontuacao_stopwords:
nova_frase.append(palavra)
frase_processada.append(' '.join(nova_frase))
resenha["tratamento_2"] = frase_processada
Poderia ser assim:
def filter_words(opiniao):
return ' '.join([ palavra for palavra in token_pontuacao.tokenize(opiniao) if palavra not in pontuacao_stopwords])
resenha = resenha.assign(tratamento_2 = resenha['tratamento_1'].apply(lambda x: filter_words(x)))
=)