Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Aplicação TF-IDF produção

Pelo que entendi quando aplicamos a vetorização e selecionamos os termos mais relevantes como no caso do TFIDF esses termos ficam na "raiz" do nosso modelo salvo, certo? Minha dúvida é qnt a aplicação em produção, vou aplicar o TF-IDF nos dados de produção antes de olhar para o modelo, e muito provavelmente os termos escolhidos serão outros, inclusive com outros "pesos" para cada termo, existe uma forma de corrigir isso (talvez selecionando apenas os termos do modelo), ou no geral é algo que não tem muita influência visto quem o treino tende a espelhar a base?

1 resposta
solução!

Fala Pablo, tudo bem?

Sim os pesos e termos vão fazer parte do seu vocabulário, então com a evolução dos seus dados você precisa retreinar seu modelo para melhorar os pesos e vocabulário!

O que você precisa é pensar bem em como treinar seu modelo, a pergunta aqui é! Quais são os dados que realmente fazem sentido para o contexto da minha aplicação?

Se sua aplicação precisa classificar avaliações de produtos eletrônicos, você não vai treinar seu TF-IDF com avaliações de filmes! Entretanto, mesmo que vc utilize muitos e muitos dados, ainda sim seu modelo precisa ser atualizado com o tempo, poís a linguagem humana é algo vivo, de tempos em tempos aprendemos novas palavras e usamos outros termos para nos expressar!

Abraços e bons estudos!