1
resposta

comportamento do kmeans

Olá mestre, bom dia. Em todos os exemplos que pude observar do kmeans me confundo qto ao passo do agrupamento. vamos supor que quero descobrir uma media de salarios da folha de pagamento de determinada empresa. entendo que os nomes e salarios serao lineares mas muito repetitivos, o que , em tese poderia nao acontecer por exemplo em ano-mes e quantiodade de voos ocorridos numa empresa aerea por exemplo. Outra estranheza minha é perceber que os dados nesse exemplo de empresa area estao bem agrupados e jah delineados e sem repeticao o que nao ocorre nos salarios dos funcionarios. explico melhor, posso agrupar somente pelo index ao inves de competencia pra otimizar o algoritmo e nao preciso criar dados bobos por exemplo nesse exemplo de salario que estou dando, isto eh porque o papel do algoritmo kmeans seria exatamente de encontrar esses dados pra agrupar por exemplo em funcinarios que ganham até determinada faixa clusterizando em 3 grupos por exemplo? entao como posso encaixar em algum exemplo desses o conceito de serie temporal com o kmeans que venho estudando ? usar o kmeans significa trabalhar com serie temporal?

1 resposta

Olá Marco, tudo certinho??

Vou tentar quebrar a sua perguntas em partes e então ir resolvendo.

Para efetuar o cálculo da média, você precisa somar os valores e dividir pelo total de elementos somados. "vamos supor que quero descobrir uma media de salarios da folha de pagamento de determinada empresa" Por exemplo:

calculo_média = 1 + 2 + 3 + 4 + 5 / 5
cálculo_média = 3 

Para isso você não precisaria do kmeans.

"entendo que os nomes e salarios serao lineares mas muito repetitivos, o que , em tese poderia nao acontecer por exemplo em ano-mes e quantiodade de voos ocorridos numa empresa aerea por exemplo."

Para essa dúvida se o seu intuito ainda for de conseguir a média, o exemplo anterior ainda servirá. A questão que precisa ficar clara é o que você está buscando de informação e então escolher a melhor "ferramenta" para isso.

"Outra estranheza minha é perceber que os dados nesse exemplo de empresa area estao bem agrupados e jah delineados e sem repeticao o que nao ocorre nos salarios dos funcionarios. explico melhor, posso agrupar somente pelo index ao inves de competencia pra otimizar o algoritmo e nao preciso criar dados bobos por exemplo nesse exemplo de salario que estou dando, isto eh porque o papel do algoritmo kmeans seria exatamente de encontrar esses dados pra agrupar por exemplo em funcinarios que ganham até determinada faixa clusterizando em 3 grupos por exemplo?"

Os exemplos que utilizamos em cursos tendem a vir tratados se o foco do curso não for ensinar esse processo. É possível ver em vários esse tratamento de dados acontecendo. Como em Data Visualization: Explorando com Seaborn

Se você for capaz de gerar esses agrupamentos, o k-means serviria em que sentido? É interessante perceber que a utilização do algoritmo se faz necessária justamente quando nós não somos capazes de agrupar, seja pela quantidade de dados ou pela relação dos mesmos.

"entao como posso encaixar em algum exemplo desses o conceito de serie temporal com o kmeans que venho estudando ? usar o kmeans significa trabalhar com serie temporal?"

Vou te deixar um Artigo usando K-means e clusters

Espero ter te ajudado e qualquer dúvida é só voltar aqui! Bons estudos =)