Ola a todos,
Sei que esta dúvida é meio complexa/específica e de forma nenhuma quero abusar da boa vontade de vc's que tem me ajudado tanto neste processo de aprendizado em machine learning.
Quero de antemão também agradecer, tudo que evolui até agora foi graças ao curso de vc's, então valeu!
Estou implementando uma máquina para detecção de fake news utilizando o Liar Dataset ( https://github.com/thiagorainmaker77/liar_dataset.git )
Comecei aplicando as técnicas básicas, fiz algumas junções de classificadores, mas não obtive um grande avanço com os trabalhos já realizados neste mesmo banco;
Me recomendaram usar a biblioteca DesLib (https://deslib.readthedocs.io/en/latest/) que serve para comparação de classificadores.
Minha dificuldade esta em achar a ferramenta que vai preparar os dados de entrada dos métodos da DesLib,
se eu usar o CountVectorizer por exemplo, ele me gera 3 matrizes distintas ( teste, validação e treino) cada uma com um tamanho (largura) diferente, o que impossibilita o funcionamento da biblioteca. Uma alternativa é juntar validação+teste+treino, aplicar o CountVectorizer e depois fazer um kfold x, Ok, isso funciona, mas ai eu n tenho como comparar com os outros trabalhos já realizados.