sobre o StandardScaler

Leonardo Sales Duarte · 2021-11-06 10:22

Pelo que li na documentação: O fit do StandardScaler --> "Compute the mean and std to be used for later scaling." Se ele considera a media e o desvio para fazer o escalonamento usando a

Olá Leonardo! Tudo tranquilo?

Sim, você está correto na afirmação que ele estará usando a média e o desvio padrão dos dados de treinamento (raw_treino_x) no conjunto raw_teste_x.

A explicação para isso é que na verdade estamos fazendo uma simulação que os dados de testes são “novos dados desconhecidos”, então usamos o conjunto de dados de teste para ter uma boa aproximação do desempenho do nosso modelo quando ele for usado no mundo real.

Quando você vai usar o modelo, por exemplo, para fazer uma previsão com apenas uma amostra, não é interessante tentar calcular a média e o desvio padrão e aplicar a padronização. Então usa-se a média e o desvio padrão do conjunto de dados de teste para quaisquer dados futuros.

Vamos a um exemplo um pouco mais prático, suponha que você tenha as seguintes amostras.

Nº Amostra	Valor	Classe
Amostra 1	30	2
Amostra 2	40	2
Amostra 3	45	2
Amostra 4	50	1

Fazendo-se os cálculos encontra-se que:

Média = 7.4
Desvio Padrão = 41.25

Realizando o cálculo da transformação (z = (x - u) / s), onde u é a média e s é o desvio padrão, tem-se que após a transformação:

Nº Amostra	Valor	Classe
Amostra 1	-1.6	2
Amostra 2	-0.2	2
Amostra 3	0.6	2
Amostra 4	1.2	1

E nosso modelo aprendeu da seguinte forma: Classifica como classe 2 as amostras com valor padronizado menor ou igual a 0.6, caso contrário classificam como 1.

Agora tem-se 4 novas amostras:

Nº Amostra	Valor	Classe
Amostra 5	5	?
Amostra 6	10	?
Amostra 7	12	?
Amostra 8	15	?

Fazendo-se os cálculos encontra-se que:

Média = 3.7
Desvio Padrão = 10.5

Intuitivamente imagina-se que todas as amostras acima pertencem à classe 2. Mas se for feita a transformação com base no desvio padrão e média das amostras 5, 6, 7 e 8 teremos os seguintes dados:

Nº Amostra	Valor	Classe
Amostra 5	-1.5	2
Amostra 6	-0.2	2
Amostra 7	0.5	2
Amostra 8	1.3	1

Atribuindo incorretamente o rótulo de classe 1 à amostra 8.

Mas se as amostras 5, 6, 7 e 8 forem feitas usando a média e desvio padrão das amostras 1, 2, 3 e 4, usadas para treinar o modelo, teríamos o seguinte:

Nº Amostra	Valor	Classe
Amostra 5	-4.9	2
Amostra 6	-4.3	2
Amostra 7	-4.0	2
Amostra 8	-3.6	2

Dessa vez os valores deram mais negativos comparados aos das amostras 1, 2, 3 e 4, o que faz mais sentido agora.

Espero que tenha dado para entender, mas se ficou alguma dúvida é só chamar!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP