Olá, vi na aula voce removendo sufixo da lingua portuguesa, mas se eu tenho um dataset em ingles, como faço pra remover o sufixo das palavras de lingua inglesa?
Olá, vi na aula voce removendo sufixo da lingua portuguesa, mas se eu tenho um dataset em ingles, como faço pra remover o sufixo das palavras de lingua inglesa?
Olá Henrique, tudo bem ?
Desculpa pela demora no retorno.
A NLTK tem algumas opções algoritmos para aplicar stemização em diversos idiomas documentação.
Vou deixar aqui o exemplo com o SnowballStemmer, onde devemos informar o idioma que gostaríamos de trabalhar.
import nltk
sno = nltk.stem.SnowballStemmer('english')
sno.stem('grows')
'grow'
Recomendo também a leitura do artigo Lemmatization vs. stemming: quando usar cada uma? para conhecer outras técnicas.
Espero ter ajudado, mas qualquer duvida não hesite em perguntar.
Bons Estudos.