1
resposta

Não entendi a necessidade de usar o scaler no pipeline

bom dia,

Estava vendo a aula que trata do pipeline no sklearn e não entendi essa parte. Não entendi porque não se pode simplesmente pegar o conjunto todo de dados, não apenas o de treino , mais o de treino e teste de treino juntos, escalar e depois usar o cross validate. Não entendi a necessidade de se reescalar os dados em cada etapa do cross validate.

1 resposta

Pelo q entendi, se vc escalar td e dps dividir, vc ta usando dados q teoricamente seriam desconhecidos para fazer seus parâmetros de escalonamento e isso é errado. O escalamento mais real é oq vc só usa os dados de treino e reescala os de teste com base no scaler de treino.

Ou é isso q eu entendi pelo menos, to fazendo o curso agr tbm xD