Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Seleção de "features" usando a variância

Não consegui entender a lógica por traz de selecionar features usando a variância e não algum outro modelo, seja ele um desvio padrão ou alguma função de seleção de feature do sklearn.

Alguém saberia me explicar?

(Uma matriz de correlação não faria mais sentido?)

1 resposta
solução!

Olá Igor, tudo bem? Espero que sim!

Desculpe pela demora em retornar.

A variância não está sendo calculada para os valores da variável em si, e sim a variância das coordenadas dos centroides.

As variáveis selecionadas serão aquelas que apresentarem uma variabilidade grande naquela coordenada do centroide. Isso faz sentido porque você deseja que os centroides estejam o mais separados possíveis uns dos outros.

Caso você selecione uma variável que possui a coordenada do centroide sem uma variância grande, os pontos de clusters diferentes ficarão muito próximos.

Dessa forma, as variáveis que possuem maiores diferenças entre os clusters serão melhor interpretadas. Caso você escolha variáveis com a variância do centroide nula, ao analisar a diferença entre os clusters dessa variável não conseguirá tirar nenhum insight a respeito.

Espero que tenha tirado sua dúvida.

Estou à disposição. Bons estudos!