Bom dia, no vetorizador, quando usamos o método fit com o corpus inteiro, não acabamos cometendo um data leakage, já que o modelo estaria se beneficiando de um conhecimento prévio do conjunto de teste?
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
Bom dia, no vetorizador, quando usamos o método fit com o corpus inteiro, não acabamos cometendo um data leakage, já que o modelo estaria se beneficiando de um conhecimento prévio do conjunto de teste?
Ooi, José! Tudo bem?
Você fez uma boa pergunta! Existe sim um risco de data leakage, pois o vetorizador estaria aprendendo informações do conjunto de teste, o que pode resultar em um desempenho superestimado e um modelo que não generaliza bem para novos dados.
Na aula o instrutor usou um exemplo prático, mas simplificado, para facilitar a compreensão. Em um projeto real, como você mencionou, usar o fit com o corpus inteiro antes de dividir os dados em treino e teste levaria ao data leakage. No contexto da aula, o foco era apenas mostrar como o TF-IDF transforma textos em representações numéricas, e não necessariamente construir um modelo de classificação robusto.
Continue com esse empenho e dedicação!
Abraço! ✨