Oii Ricardo, tudo certo por ai? Espero que sim!
Realmente, no curso o instrutor falou sobre a importância de normalizar os dados e não os fez, o que altera os resultados de uma forma gritante.
Para saber se o seu problema precisa ou não de normalização, precisamos analisar os intervalos das variáveis, então quando temos variáveis com uma diferença muito grande de intervalos, o ideal é normalizar os dados. Um exemplo de problema que precisamos usar a normalização é: valor de uma casa e quantidade de donos anteriores.
Digamos que a faixa de valor das casas analisadas é de R$50.000,00 à R$1.000.000,00 e o valor de quantidade de donos anteriores varia de 1 à 25. Você consegue perceber o quanto esses valores são distantes?
Se usarmos os valores dessa forma, nosso modelo vai ter uma tendência errada, que vai influenciar nossos resultados finais e na quantidade de clusters. Quando fazemos a normalização, tanto o valor da casa quanto o número de donos anteriores fica num range de 0 a 1, então as clusters tem uma forma mais consistente, sem tantos outliers.
Esse exemplo que dei funciona para o caso de clusters, em alguns outros métodos de análise de dados a normalização pode não ser necessária.
Espero que tenha te ajudado, mas caso ainda tenha dúvidas, pode me chamar, ok?
Bons estudos ^^
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!