1
resposta

[Dúvida] Classificação de textos PLN, tratamentos do dataset de treino e teste x dados novos de texto

Quando se tem um dataset de mensagens de texto e se cria um modelo de classificação do texto das mensagens do dataset, fazemos toda a limpeza e vários tratamentos, desse dataset que será usado para treino e teste, excluindo pontuação, stop words, etc., depois quando esse modelo de classificação for usado como base para classificar novos dados, toda a etapa de limpeza e tratamento das mensagens também é feita nas mensagens novas? Como isso funciona?

1 resposta

Olá Aluno, tudo bem?

Todo o tratamento que você faz para treinar o modelo, tem que ser feito também nos dados que você vai usar para testar o modelo com o comando predict.

Você pode salvar o seu modelo e depois utilizar ele novamente com outros dados, usando o método pickle.

Tem um exemplo nesse post: https://cursos.alura.com.br/forum/topico-como-fazer-uma-predicao-com-o-modelo-treinado-175620

Espero ter ajudado.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!