[Dúvida] Classificação de textos PLN, tratamentos do dataset de treino e teste x dados novos de texto

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

1
resposta

Referente ao curso Linguagem Natural parte 1: NLP com análise de sentimento

por Estudante

| 48.9k xp | 1 posts

Quando se tem um dataset de mensagens de texto e se cria um modelo de classificação do texto das mensagens do dataset, fazemos toda a limpeza e vários tratamentos, desse dataset que será usado para treino e teste, excluindo pontuação, stop words, etc., depois quando esse modelo de classificação for usado como base para classificar novos dados, toda a etapa de limpeza e tratamento das mensagens também é feita nas mensagens novas? Como isso funciona?

1 resposta

por Cecilia Oliveira Souza

| 12.7k xp | 8 posts

08/03/2023

Olá Aluno, tudo bem?

Todo o tratamento que você faz para treinar o modelo, tem que ser feito também nos dados que você vai usar para testar o modelo com o comando predict.

Você pode salvar o seu modelo e depois utilizar ele novamente com outros dados, usando o método pickle.

Tem um exemplo nesse post: https://cursos.alura.com.br/forum/topico-como-fazer-uma-predicao-com-o-modelo-treinado-175620

Espero ter ajudado.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP