data leakage

Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

1
resposta

por José Luiz Neves Voltan

| 26k xp | 3 posts

Bom dia, no vetorizador, quando usamos o método fit com o corpus inteiro, não acabamos cometendo um data leakage, já que o modelo estaria se beneficiando de um conhecimento prévio do conjunto de teste?

1 resposta

solução!

por Maiully Mendonça

| 271.2k xp | 623 posts

12/08/2024

Ooi, José! Tudo bem?

Você fez uma boa pergunta! Existe sim um risco de data leakage, pois o vetorizador estaria aprendendo informações do conjunto de teste, o que pode resultar em um desempenho superestimado e um modelo que não generaliza bem para novos dados.

Na aula o instrutor usou um exemplo prático, mas simplificado, para facilitar a compreensão. Em um projeto real, como você mencionou, usar o fit com o corpus inteiro antes de dividir os dados em treino e teste levaria ao data leakage. No contexto da aula, o foco era apenas mostrar como o TF-IDF transforma textos em representações numéricas, e não necessariamente construir um modelo de classificação robusto.

Continue com esse empenho e dedicação!

Abraço! ✨

Caso este post tenha lhe ajudado, por favor, marque como solucionado ✓. Bons Estudos!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP