1
resposta

[Projeto] Faça como eu fiz: avaliando nossas métricas

Olá, pessoal!

Nesta etapa, dei continuidade ao fluxo de clusterização trabalhando com a avaliação das métricas do modelo. Após preparar os dados e treinar inicialmente um modelo KMeans com 2 clusters, recuperei a inércia do modelo, que representa a soma das distâncias dos pontos em relação aos centróides dos seus respectivos agrupamentos.

Além da inércia, também calculei o Silhouette Score, que permite avaliar o quanto os pontos estão bem posicionados dentro dos seus clusters e separados dos demais grupos. Essa métrica é importante porque ajuda a entender melhor a qualidade da separação encontrada pelo modelo.

Em seguida, criei uma função para avaliar diferentes quantidades de clusters, variando de 2 até 20. Para cada valor de k, o modelo foi treinado novamente e foram calculadas a inércia e a silhueta. Esse processo permite comparar o comportamento do modelo em diferentes configurações, em vez de assumir que a primeira quantidade escolhida de clusters é necessariamente a melhor.

Também implementei a visualização do gráfico de silhueta, que mostra como os dados estão distribuídos dentro de cada cluster, e o gráfico do método do cotovelo, que auxilia na análise da redução da inércia conforme aumentamos o número de agrupamentos.

Essa etapa foi importante para reforçar que, em problemas de aprendizado não supervisionado, a avaliação do modelo não é feita comparando com uma resposta correta, mas sim analisando métricas e visualizações que ajudam a interpretar se os grupos encontrados fazem sentido.

Link do repositório:
https://github.com/Moquiuti/Clusteriza-o-Lidando-com-dados-sem-r-tulo/blob/main/atividade_metricas_clusterizacao.py

1 resposta

Oii Leandro, tudo bem?

Obrigada por compartilhar seu desenvolvimento no fórum, com certeza vai ajudar outros alunos que passarem por essa mesma atividade.

Sua explicação sobre as métricas ficou muito clara: você não apenas executou o código, mas demonstrou entender o que cada métrica representa, especialmente ao destacar que, no aprendizado não supervisionado, a avaliação passa por interpretar resultados e não comparar com um gabarito. Esse entendimento é fundamental para trabalhar bem com clusterização.

A função avaliacao que você implementou, iterando de 2 a 20 clusters e coletando inércia e silhueta para cada valor, é exatamente a abordagem correta para não tomar o primeiro modelo como definitivo. Bom trabalho!

Conte com a Alura para evoluir seus estudos. Em caso de dúvidas, fico à disposição.

Bons estudos!

Sucesso

Imagem da comunidade