Oi, tudo bem? Eu fiquei com uma duvida que achei interessante compartilhar aqui. Temos o seguinte cenário: A gente normaliza variáveis (salario por exemplo) para treinar um modelo usando KNeighborsClassifier (como resultado temos variáveis transformadas cujos valores estão comprendidos entre 0 e 1). Agora precisamos fazer previsão de um conjunto de dados novos em que as variáveis excedem os máximos usados para treinar o modelo (nesse caso o valor normalizado seria maior do que 1). O que devemos fazer nesses casos?
Perguntei ao Chat GTP e a resposta pode ser resumida como:
✅ Resumo
- Use o mesmo scaler treinado nos dados novos.
- Não é problema se os valores normalizados saírem de [0, 1] (o modelo vai considerar isso como valores "mais distantes").
- Avalie se os dados novos estão muito fora da distribuição original.
- Se for um padrão frequente, reavalie o uso de MinMaxScaler.
Gostaria de receber feedbacks, desde já obrigado!