1
resposta

StandardScaler Dúvida

Eu poderia usar o StandardScaler antes de fazer o split dos dados, assim não seria necessário, faze-lo pra ambas as variaveis teste e treino ?

1 resposta

Olá Ludson,

Você pode fazer sim. Entretanto, talvez não seja uma boa ideia.

Veja: A ideia de separar o conjunto de dados em treinamento e teste é ajustar o modelo na amostra de treinamento, para testá-lo em outra amostra com dados 'novos'.

Quando você usa o StandardScaler, os dados são padronizados a partir da média e desvio padrão do conjunto de dados.

Se você aplicar o algoritmo de padronização e depois separá-los em treinamento e teste, as amostras estarão normalizadas com base no mesmo valor de média e desvio padrão.

Portanto, para testar o ajuste do modelo de forma mais justa (e essa é minha opinião, pois não encontrei uma referência que apoia meu argumento) é interessante que a padronização dos dados seja feita após sua segmentação, pois assim, treino e teste serão normalizadas com base em seus próprios valores de média e desvio.

Abs

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software