Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

[Dúvida] Tenho uma dúvida. Se ao invés de eu usar o StandardScaler da forma como o professor fez, e se eu fizer de uma maneira diferente?

Tenho uma dúvida. Se ao invés de eu usar o StandardScaler da forma como o professor fez, e se eu fizer de uma maneira diferente?:

O que eu pensei foi o seguinte: Eu poderia dividir os grupos, estratificar, e até aplicar StandardScaler nos dados, tudo isso logo após carregar o dataset?

Após isso E aí com o dataset já tratado, transformado, dividido e balanceado, eu usar isso pra treinar no hold-out, ou então via cross-validation, sem precisar especificar grupos, nem outras coisas? Ou seja, eu já fiz todos os tratamentos antes de começar a treinar o modelo?

Isso que eu descrevi seria uma alternativa valida pra treinar um modelo de uma boa forma eficaz?

1 resposta
solução!

Oi William, tudo bem?

A ideia de aplicar o StandardScaler logo após carregar o dataset e antes de dividi-lo em conjuntos de treino e teste pode parecer prática, mas há algumas considerações importantes a serem feitas.Quando você aplica o StandardScaler a todo o dataset antes de dividi-lo, você está permitindo que informações do conjunto de teste "vazem" para o conjunto de treino. Isso acontece porque o StandardScaler calcula a média e o desvio padrão de todo o dataset e usa esses valores para padronizar os dados. Esse vazamento pode levar a uma avaliação otimista do desempenho do seu modelo, já que ele foi "ajudado" por informações que, na prática, ele não teria durante o treinamento.

A abordagem mais correta é:

  1. Dividir o dataset em conjuntos de treino e teste.
  2. Aplicar o StandardScaler apenas no conjunto de treino para calcular a média e o desvio padrão.
  3. Usar esses valores do conjunto de treino para padronizar tanto o conjunto de treino quanto o conjunto de teste.

Espero ter esclarecido.

Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!