2
respostas

Alteração do stemmer brasileiro no Elasticsearch

Boa tarde,

Alguém conhece algum outro stemmer do elasticsearch / lucene que seja possível utilizar para a língua portuguesa do Brasil? O stemmer padrão 'brazilian' do lucene não nos atende satisfatóriamente.

Outra opção é se alguém conhece uma "correção" do stemmer via override, e se já existe alguma lista para português brasileiro pronto.

Obrigado!

2 respostas

Oi João, tudo bem ?

Dei uma olhadinha nisso, vê se te ajuda : https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-lang-analyzer.html

Oi Matheus, tudo certo?

Obrigado pela ajuda! Eu já tinha visto, o problema é que neste default do Elasticsearch, a única opção para nossa língua portuguesa é o

"brazilian_stemmer": { "type": "stemmer", "language": "brazilian" }

Este default é feito em cima da classe http://lucene.apache.org/core/6_5_1/analyzers-common/org/apache/lucene/analysis/br/BrazilianStemmer.html, e ele não nos traz bons resultados.

Estou em via de instalar e utilizar este plugin para ver os resultados:

https://github.com/anaelcarvalho/elasticsearch-analysis-rslp

Obrigado!