3
respostas

Como ter uma classificação de sentimento inicial como base

Olá Boa noite. Eu estou comum uma dúvida neste ponto do curso. Você pegaram uma base já classificada de filmes com a coluna de sentimentos negativa ou positiva para depois aplicar as regras de classificação para novos textos.

Mas usar esta base já com sentimentos classificados, pode ser aplicada depois para outra análise de sentimentos?

Por exemplo, eu tenho uma base enorme de textos de uma conversa de chat e gostaria de fazer a classificação de sentimentos dela, no caso mais específico encontrar um padrão que me diz que aquela frase está relacionada a um BUG, ou seja, uma análise de sentimento negativa.

Neste caso eu posso usar qualquer base de dados com classificação de sentimento para poder avaliar a minha base de dados??

Não sei se me expressei direito.

Obrigado.

3 respostas

Olá Daniel,

Claro se expressou muito bem!

Bom vamos lá,

Acho que a resposta é depende!

Caso você encontre uma base de dados relativamente semelhante com a sua, você pode aplicar o modelo treinado em outra base nos seus dados, ou aproveitar partes daquele modelo (Transfer Learning).

Essa é uma abordagem, outra coisa que vc pode fazer é criar um modelo baseada em votação, como assim Thiago?

Imagina que vc tem 2 dicionário de palavras, um com conotação positiva e outro com conotação negativa! Você pode varre seus textos e acada palavra posita você soba 1 e a cada palavra negativa vc soma -1 (esses pesos podem mudar, novamente depende do seu contexto e seus objetivos). No final o que tiver com resultado positivo vc, podemos considerar como um bom sentimento, e o que tiver com resultado negativo com sentimento ruim. (Claro que essa abordagem tem alguns desafios como a criação dos dicionários, mas vc pode obter alguns resultados interessantes)

Agora uma coisa que eu faria, seria aproveitar essas duas ideias para fazer a notação dos seus dados, novamente! Como assim Thiago?

Olha para criar um bom modelo de machine learning o "ideal" é que vc treine o seu modelo com sua própria base de dados ou dados bem semelhantes! Mas seus dados não foram previamente anotados com sentimento positivo e negativo. Fazer isso manualmente é custoso, tanto em tempo quanto financeiramente, mas você pode otimizar essa notação com os modelos que vc já tem em mãos ou até mesmo com algum modelo de clusterização. Bom pega o modelo que vc criou ao invés de pedir a predição direta, user o .predict_prob para obter a probabilidade de cada texto ser positivo ou negativo! Com isso vc vai começar a notar seus dados, pegue alguns textos com alta probabilidade de ser negativo e positivo e valide se realmente está classificado corretamente (lendo o texto mesmo e verificando se faz sentido), depois analise tbm os que estão perto dos 50%, ou seja ele não faz ideia se é positivo ou negativo! Feito isso, agora treine um novo modelo com seus dados e o utilize para continuar esse processo algumas vezes.

Bom essas são algumas saídas que vc pode pensar!

Abraços e bons estudos!

Valew Thiago pelas dicas.

Vou tentar orientar meus estudos em cima da base eu eu tenho.

Gostei desta ideia de votação. Como preciso identificar padrões nas conversas relacionado a bug de sistemas, vou ter que explorar um pouco mais a base de textos e construir alguns dicionários para poder criar esta votação e poder ponderar os textos.

Mas agradeço as dicas.

Parabéns pelo curso, me deu muitos insights.

Att.

Daniel.

Maravilha daniel!

Espero que consiga bons resultados, abraços!