Como deve funcionar os casos em que as palavras não estão contidas nas frases utilizadas no conjunto de treinamento? Será necessário criar um dicionário de toda a língua portuguesa para poder ser genérico o suficiente ou há alguma heurística melhor?
Como deve funcionar os casos em que as palavras não estão contidas nas frases utilizadas no conjunto de treinamento? Será necessário criar um dicionário de toda a língua portuguesa para poder ser genérico o suficiente ou há alguma heurística melhor?
Oi José tudo bem?
Não manjo muito desse curso e nem sei programar bem em machine learning ainda. Mas eu tenho uma lista com todas as palavras que não são verbo, adjetivo e substantivo.
listadepalavrasnaochave="é,são,eu,tu,ele,ela,nós,vós,eles,elas,me,te,se,lhe,o,a,nos,vos,lhes,os,as,mim,ti,si,este,esse,aquele,estes,esses,aqueles,esta,essa,aquela,estas,essas,aquelas,isto,isso,aquilo,meu,teu,seu,nosso,vosso,seu,minha,tua,sua,nossa,vossa,sua,meus,teus,seus,nossos,vossos,seus,minhas,tuas,suas,nossas,vossas,suas,qual,quais,cujo,cujos,quanto,quantos,cuja,cujas,quanta,quantas,que,quem,onde,algum,nenhum,todo,outro,muito,pouco,certo,vário,tanto,qualquer,alguns,nenhuns,todos,outros,muitos,poucos,certos,vários,tantos,quantos,quaisquer,alguma,nenhuma,toda,outra,muita,pouca,certa,vária,tanta,quanta,quaisquer,algumas,nenhumas,todas,outras,muitas,poucas,certas,várias,tantas,quantas,alguém,ninguém,tudo,outrem,nada,cada,algo,um,uma,uns,umas,ante,após,até,com,contra,de,das,dos,desde,em,entre,para,por,perante,sem,sob,sobre,no,na,trás,afora,como,conforme,consoante,durante,exceto,feito,fora,mediante,menos,salvo,segundo,senão,tirante,visto,abaixo,acerca,acima,fim,além,antes,invés,par,apesar,através,cima,dentro,depois,diante,frente,à,àquele,do,duma,disto,nas,num,nessa,pelo,pelas,ao,aos,aonde,e,mas,nem,também,porém,contudo,entretanto,todavia,ou,já,ora,quer,seja,logo,portanto,conseguinte,que,porque,assim,pois,porquanto,como,embora,apesar,mais,menos,melhor,contanto,desde,sempre,ah,oh,ai";
E aqui https://github.com/neoandrevictor/cyberbot/blob/master/fuzzymatching.js uma lista com 600 mil palavras em português sem hífens.
Compartilho essa lista porque penei pra conseguir. Então se for usar está aí. Realmente não sei dizer se é a melhor abordagem usar um dicionário com todas as palavras porque fica bem lento para processar tanta informação depende muito do seu projeto e do escopo dele.
Espero ter ajudado!!!