1
resposta

Dúvida - necessidade ou não de padronizar os dados por "StandardScaler"

surgiu uma dúvida. Estava vendo um outro vídeo antes de realizar esse curso também na área de regressão. Antes de construir o modelo, o professor daquele vídeo falou sobre padronizar os dados de x (ver ponto as 2h36min do video - https://www.youtube.com/watch?v=r6LHCkJg58Y&t=9373s). Fiquei na dúvida: é necessário padronizar os dados ou não precisa para construir o modelo?

1 resposta

Olá, Marcos.

Tudo bem?

Sua pergunta é muito relevante. A padronização dos dados, que é o processo de transformar os dados para que eles tenham média zero e desvio padrão um, é uma etapa importante em muitos algoritmos de machine learning. Isso ocorre porque muitos algoritmos são sensíveis à escala dos dados. Por exemplo, se uma variável explicativa varia de 0 a 1 e outra varia de 1 a 1000, o algoritmo pode dar mais importância à segunda variável simplesmente por causa de sua escala, mesmo que a primeira variável seja mais importante para o problema em questão.

No entanto, em relação à regressão linear, a padronização dos dados não é estritamente necessária. A regressão linear não é sensível à escala dos dados, e você pode obter os mesmos resultados com dados padronizados ou não padronizados. A diferença é que, se você padronizar os dados, os coeficientes da regressão serão em termos de desvios padrão, o que pode ser mais fácil de interpretar.

Portanto, a resposta para sua pergunta é: não, não é estritamente necessário padronizar os dados para construir um modelo de regressão linear. No entanto, pode ser útil fazê-lo por razões de interpretabilidade.

Espero ter ajudado. Qualquer dúvida manda aqui. Bons estudos.