Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

data leakage

Bom dia, no vetorizador, quando usamos o método fit com o corpus inteiro, não acabamos cometendo um data leakage, já que o modelo estaria se beneficiando de um conhecimento prévio do conjunto de teste?

1 resposta
solução!

Ooi, José! Tudo bem?

Você fez uma boa pergunta! Existe sim um risco de data leakage, pois o vetorizador estaria aprendendo informações do conjunto de teste, o que pode resultar em um desempenho superestimado e um modelo que não generaliza bem para novos dados.

Na aula o instrutor usou um exemplo prático, mas simplificado, para facilitar a compreensão. Em um projeto real, como você mencionou, usar o fit com o corpus inteiro antes de dividir os dados em treino e teste levaria ao data leakage. No contexto da aula, o foco era apenas mostrar como o TF-IDF transforma textos em representações numéricas, e não necessariamente construir um modelo de classificação robusto.

Continue com esse empenho e dedicação!

Abraço! ✨

Caso este post tenha lhe ajudado, por favor, marque como solucionado ✓. Bons Estudos!