Olá Leonardo! Tudo tranquilo?
Sim, você está correto na afirmação que ele estará usando a média e o desvio padrão dos dados de treinamento (raw_treino_x) no conjunto raw_teste_x.
A explicação para isso é que na verdade estamos fazendo uma simulação que os dados de testes são “novos dados desconhecidos”, então usamos o conjunto de dados de teste para ter uma boa aproximação do desempenho do nosso modelo quando ele for usado no mundo real.
Quando você vai usar o modelo, por exemplo, para fazer uma previsão com apenas uma amostra, não é interessante tentar calcular a média e o desvio padrão e aplicar a padronização. Então usa-se a média e o desvio padrão do conjunto de dados de teste para quaisquer dados futuros.
Vamos a um exemplo um pouco mais prático, suponha que você tenha as seguintes amostras.
Nº Amostra | Valor | Classe |
---|
Amostra 1 | 30 | 2 |
Amostra 2 | 40 | 2 |
Amostra 3 | 45 | 2 |
Amostra 4 | 50 | 1 |
Fazendo-se os cálculos encontra-se que:
Média = 7.4
Desvio Padrão = 41.25
Realizando o cálculo da transformação (z = (x - u) / s), onde u é a média e s é o desvio padrão, tem-se que após a transformação:
Nº Amostra | Valor | Classe |
---|
Amostra 1 | -1.6 | 2 |
Amostra 2 | -0.2 | 2 |
Amostra 3 | 0.6 | 2 |
Amostra 4 | 1.2 | 1 |
E nosso modelo aprendeu da seguinte forma: Classifica como classe 2 as amostras com valor padronizado menor ou igual a 0.6, caso contrário classificam como 1.
Agora tem-se 4 novas amostras:
Nº Amostra | Valor | Classe |
---|
Amostra 5 | 5 | ? |
Amostra 6 | 10 | ? |
Amostra 7 | 12 | ? |
Amostra 8 | 15 | ? |
Fazendo-se os cálculos encontra-se que:
Média = 3.7
Desvio Padrão = 10.5
Intuitivamente imagina-se que todas as amostras acima pertencem à classe 2. Mas se for feita a transformação com base no desvio padrão e média das amostras 5, 6, 7 e 8 teremos os seguintes dados:
Nº Amostra | Valor | Classe |
---|
Amostra 5 | -1.5 | 2 |
Amostra 6 | -0.2 | 2 |
Amostra 7 | 0.5 | 2 |
Amostra 8 | 1.3 | 1 |
Atribuindo incorretamente o rótulo de classe 1 à amostra 8.
Mas se as amostras 5, 6, 7 e 8 forem feitas usando a média e desvio padrão das amostras 1, 2, 3 e 4, usadas para treinar o modelo, teríamos o seguinte:
Nº Amostra | Valor | Classe |
---|
Amostra 5 | -4.9 | 2 |
Amostra 6 | -4.3 | 2 |
Amostra 7 | -4.0 | 2 |
Amostra 8 | -3.6 | 2 |
Dessa vez os valores deram mais negativos comparados aos das amostras 1, 2, 3 e 4, o que faz mais sentido agora.
Espero que tenha dado para entender, mas se ficou alguma dúvida é só chamar!
:)
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!