Olá Maurício, tudo bem?
Muito obrigado pelo feedback. :D Acho bem válido um texto falando sobre esse processo. Vou acrescentá-lo no curso :)
Aqui vai uma breve explicação sobre reescalar os dados:
Quando reescalamos os dados, estamos buscando deixar os centralizados, próximos a zero e com a variância na mesma ordem. O algoritmo vai analisar as estatísticas, como média e desvio padrão, de cada feature da amostra individualmente.
Quando rodamos o método fit_transform
, informamos ao Scaler
quais são os dados que ele usará para computar a média e o desvio padrão para que então as features sejam centralizadas e escaladas.
Utilizamos o scaling das variáveis categóricas, porém essa não é a única forma de trabalhar com esse tipo de dado. Existem outros algoritmos que conseguem trabalhar com esses tipos de variáveis também.