1
resposta

Diminuição da acuracia na regressão logistica após realizar stemização

Estou tentando aplicar as aulas em uma base de dados de avaliações em jogos online. Porém após colocar todos os dados para lower case e testar a acuracia ela fica em 0.812 e quando eu aplico a stemização ela passa a ser 0.802. Isso é possivel? reduzir a acuracia ao aplicar a stemização?

1 resposta

Olá, Gabryel! Tudo bom com você? Eu espero que sim!

Desculpa a demora em te dar um retorno.

Dependendo do banco de dados, o stemming pode mais atrapalhar que ajudar, pois essa é uma técnica mais focada na indexação de palavras. Ela apenas reduz o tamanho das palavras, podendo sem querer deixar palavras com sentidos diferentes, idênticas. Como por exemplo as palavras “carro”, “carroça”, e “carreira”, pelo stemming todas podem ser reduzidas a “carr” o que prejudicaria a análise, por isso, o stemming não é bacana em idiomas morfologicamente mais complexos.

Uma saída para esse caso é, ao invés de aplicar o stemming, utilizar a lemmatization (lematização, no português) que faz quase a mesma coisa do stemming, porém ela promove a redução até uma palavra que realmente existe na língua trabalhada, o que permite que o sentido seja mantido e a quantidade de palavras únicas seja diminuída.

Vou deixar aqui o artigo intitulado Lemmatization vs. stemming: quando usar cada uma? que traz uma explicação bem bacana desses dois métodos e explica quando devemos aplicar cada um deles.

Eu espero ter te ajudado! Se surgir outra dúvida estarei à disposição ;-)

Bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!