Bom dia, no vetorizador, quando usamos o método fit com o corpus inteiro, não acabamos cometendo um data leakage, já que o modelo estaria se beneficiando de um conhecimento prévio do conjunto de teste?
Bom dia, no vetorizador, quando usamos o método fit com o corpus inteiro, não acabamos cometendo um data leakage, já que o modelo estaria se beneficiando de um conhecimento prévio do conjunto de teste?
Ooi, José! Tudo bem?
Você fez uma boa pergunta! Existe sim um risco de data leakage, pois o vetorizador estaria aprendendo informações do conjunto de teste, o que pode resultar em um desempenho superestimado e um modelo que não generaliza bem para novos dados.
Na aula o instrutor usou um exemplo prático, mas simplificado, para facilitar a compreensão. Em um projeto real, como você mencionou, usar o fit
com o corpus inteiro antes de dividir os dados em treino e teste levaria ao data leakage. No contexto da aula, o foco era apenas mostrar como o TF-IDF transforma textos em representações numéricas, e não necessariamente construir um modelo de classificação robusto.
Continue com esse empenho e dedicação!
Abraço! ✨