1
resposta

Os algoritmos precisam de normalização?

Olá pessoal,

Estava olhando a documentação e vi que quase todos os algoritmos utilizam cálculo de distância por trás dos panos.

Isso não significa que devemos normalizar os dados pra todos eles, assim fazendo com que todas as features tenham a mesma importância?

Ou isso já é feito internamente ao algoritmo?

Valeu.

1 resposta

Olá Gustavo, tudo bem?

Ótima pergunta! Normalmente, quando lidamos com algoritmos que dependem de cálculos de distância e redes neurais, a normalização dos dados é importante. Isso se deve ao fato de que esses algoritmos são sensíveis à escala das features, e a falta de normalização pode levar a resultados distorcidos, onde features com magnitudes maiores acabam dominando o processo de aprendizado.

No entanto, quando falamos de algoritmos baseados em árvores de decisão, como Decision Tree, Random Forest e Gradient Boosting, a normalização não é necessária. Isso ocorre porque esses algoritmos não dependem de cálculos de distância entre os pontos de dados. As árvores de decisão tomam decisões com base em condições nas features, como "é o valor da feature A maior que 10?" ou "o valor da feature B está dentro de um certo intervalo?". Como essas decisões são tomadas individualmente em cada nó da árvore, a escala das features não interfere no processo de aprendizado.

Espero que isso esclareça sua dúvida! Se tiver mais perguntas, não hesite em perguntar.