No fim das contas, apos filtrar os textos , nossa porcentagem de acerto na validação caiu de 89% pra 77 % | Machine Learning: avançando com tipos diferentes de classificação

Olá Eduardo, tudo bem ? Espero que sim.

Desculpa pela demora no retorno.

O motivo de um modelo ser o melhor podem ser muitos, quantidade dados como você disse, se o algoritmo é o mais adequado, se utilizou os hiperparâmetros mais adequados, então já que são diversos os fatores que podem influenciar, devemos ter duas estratégias, testar como diversos algoritmos e hiperparâmetros , e conhecer bem os algoritmos e os nosso dados. Juntando todo esse conhecimento poderemos escolher o melhor modelo para o nosso problema.

Para conhecer os algoritmos podemos recorrer a documentação e para explorar e avaliar os modelos temos três cursos aqui na Alura que ensinam sobre isso:

Curso de Machine Learning: Validação de modelos
Curso de Machine Learning parte 1: Otimização de modelos através de hiperparâmetros
Curso de Machine Learning parte 2: Otimização com exploração aleatória

E agora focando nos conceitos de NLP e analise de sentimento temos diversos cursos aqui na Alura que vão te ajudar a limpar seus textos e atingir resultados melhores com o seu modelo, nesse plano de estudo tem todos os cursos NLP da Alura até a data de hoje.

Espero ter ajudado, bons estudos.