Eu poderia usar o StandardScaler antes de fazer o split dos dados, assim não seria necessário, faze-lo pra ambas as variaveis teste e treino ?
Eu poderia usar o StandardScaler antes de fazer o split dos dados, assim não seria necessário, faze-lo pra ambas as variaveis teste e treino ?
Olá Ludson,
Você pode fazer sim. Entretanto, talvez não seja uma boa ideia.
Veja: A ideia de separar o conjunto de dados em treinamento e teste é ajustar o modelo na amostra de treinamento, para testá-lo em outra amostra com dados 'novos'.
Quando você usa o StandardScaler, os dados são padronizados a partir da média e desvio padrão do conjunto de dados.
Se você aplicar o algoritmo de padronização e depois separá-los em treinamento e teste, as amostras estarão normalizadas com base no mesmo valor de média e desvio padrão.
Portanto, para testar o ajuste do modelo de forma mais justa (e essa é minha opinião, pois não encontrei uma referência que apoia meu argumento) é interessante que a padronização dos dados seja feita após sua segmentação, pois assim, treino e teste serão normalizadas com base em seus próprios valores de média e desvio.
Abs