1
resposta

Como calcular a similaridade entre os textos

Quando vi que dava pra calcular a frequência de cada palavra em um texto, logo pensei se dava pra comparar isso com outro texto e assim achar a similaridade entre eles, por exemplo, se varias palavras tem muita ocorrência tanto no texto1 quanto no texto2, eles seriam similares; mas aí fui procurar sobre e tem coisas meio complicadas envolvendo transformação em vetores e calculando a distancia entre eles, e eu não entendi tão bem pq sempre falavam sobre o cálculo mas usavam uma função qualquer de outra biblioteca que tenha essa função, já eu gostaria de entender a própria função, então se tiver alguém experiente e que possa me explicar, agradeceria muuito.

1 resposta

Até dá pra fazer isso, mas não é a melhor forma. Muitas palavras se repetem com frequência num texto, e comparar a similaridade deles por esse método pode ser bem falho. Dito isso, uma implementação poderia ser feita, algo como:

Listar todas as palavras dos dois textos, eliminar as palavras que não se repetem das duas listas, organizar as listas por ordem das que mais se repetem para a que menos se repetem. Agora poderia ser feito um cálculo com o número inicial de palavras e esse novo número de palavras e suas repetições.