[Dúvida] Tenho uma dúvida. Se ao invés de eu usar o StandardScaler da forma como o professor fez, e se eu fizer de uma maneira diferente?

Oi William, tudo bem?

A ideia de aplicar o StandardScaler logo após carregar o dataset e antes de dividi-lo em conjuntos de treino e teste pode parecer prática, mas há algumas considerações importantes a serem feitas.Quando você aplica o StandardScaler a todo o dataset antes de dividi-lo, você está permitindo que informações do conjunto de teste "vazem" para o conjunto de treino. Isso acontece porque o StandardScaler calcula a média e o desvio padrão de todo o dataset e usa esses valores para padronizar os dados. Esse vazamento pode levar a uma avaliação otimista do desempenho do seu modelo, já que ele foi "ajudado" por informações que, na prática, ele não teria durante o treinamento.

A abordagem mais correta é:

Dividir o dataset em conjuntos de treino e teste.
Aplicar o StandardScaler apenas no conjunto de treino para calcular a média e o desvio padrão.
Usar esses valores do conjunto de treino para padronizar tanto o conjunto de treino quanto o conjunto de teste.

Espero ter esclarecido.

Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Importante

[Dúvida] Tenho uma dúvida. Se ao invés de eu usar o StandardScaler da forma como o professor fez, e se eu fizer de uma maneira diferente?

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP