1
resposta

Vetorização das palavras

Nos outros cursos de NLP aqui da Alura foi dito que para vetorizar é bom fazer mais alguns tratamentos antes de vetorizar, como tirar masculino e feminino (ótimo e ótima, por exemplo, ficaram só ótim), tirar acentuação, deixar todas as letras em minúsculo... Por que isso não é feito neste caso? Esse tratamento prévio é dispensável?

1 resposta

Oi, Lucas! Tudo bom com você? Eu espero que sim!

Desculpa a demora em te dar um retorno.

Você está correto, é sempre bom fazer o pré-processamento do texto que será usado para limpar o texto, removendo os ruídos (pontos, caracteres especiais, etc), palavras repetidas e aquelas com pouco valor para a base de dados. No entanto, acredito que o objetivo do professor foi focar mais nas tags e na relevância binária de cada caso, explicando como tratá-los antes do treinamento bem como os classificadores utilizados e por isso, deixou aquela etapa um pouco de lado.

Mesmo assim, para que qualquer modelo tenha um melhor aproveitamento na etapa de aprendizado é sempre importante tratar os dados previamente. Assim podemos obter resultados muito melhores e mais efetivos.

Eu espero ter te ajudado! Se surgir outra dúvida estarei à disposição ;-)

Bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!