Vi que existem varios metodos para normalizar ou scalar os dados, mas qual deles seria melhor para certas situacoes?
E quando eu deveria normalizar ou Scalar os dados?
Vi que existem varios metodos para normalizar ou scalar os dados, mas qual deles seria melhor para certas situacoes?
E quando eu deveria normalizar ou Scalar os dados?
Olá Jackson, tudo bem? Espero que sim!
O intuito da padronização ou normalização dos dados é a de deixar as variáveis todas em uma mesma escala e o valor não impactar no resultado final simplesmente por ser maior que os demais. Esse tipo de tratamento não precisa ser realizado em todas as situações, somente quando no resultado do cálculo a escala dos valores tenha um impacto. Por exemplo: Se você precisa fazer um cálculo de distância entre dois pontos (que é um conceito muito utilizado em algoritmos de clusterização), ao analisar a fórmula do cálculo de distância vai perceber que o resultado final é influenciado pela escala da variável. Portanto nesses casos precisamos modificar a escala para que isso não influencie.
Em relação a normalizar ou padronizar, é muito difícil dizer qual será o melhor para cada caso, mas podemos utilizar a estratégia de padronizar os dados quando o desvio padrão não for muito pequeno. No caso em que ele é pequeno é melhor utilizar a normalização.
Bons estudos!