Uso do StandardScaler

Na aula 1 do curso de Machine Learning: introdução a algoritmos nao supervisionados, o professor utiliza o StandardScaler em um dataframe com gêneros de filmes. Cada filme pode ter um ou mais gênero e recebe 1 na coluna do gênero ao qual pertence e 0 nas demais. Entendo que desta forma tudo está na mesma escala. O intrutor, no entanto, utiliza o StandardScaler. Ele diz que ao realizar o StandardScale, encontramos o gênero de maior relevância para cada um dos filmes. Uma nota explica porque isso não é verdade, mas não explica porque usar o StandardScaler. Se tivessemos uma coluna que recebe 0 ou 1 e outra que recebe 0, 1 ou 2, faria sentido, mas no caso está tudo usando 0 ou 1. Então por que usar o StandardScaler?

Olá André tudo bem com você??

Na verdade a nota indica que não deveria ser utilizado o StandardScale, justamente pelo que você comentou que os dados analisados estão próximos entre 0 e 1. como pode observar nesta parte da nota é tratado isso "Como os dados são binários o k-means deve até ser evitado, para esse caso a distancia Euclidiana não trás um significado real, visto que o espaço dimensional dos dados passa a ser discreto e sem uma origem natural. Para esse problema você poderia transformar os gêneros em dados categóricos e aplicar variações do k-means conhecida como k-modes, introduzidas no paper de Zhexue Huang"

Espero ter te ajudado e qualquer dúvida pode retornar aqui =)

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP