Olá, pessoal!
Nesta etapa, dei continuidade ao fluxo de clusterização trabalhando com a avaliação das métricas do modelo. Após preparar os dados e treinar inicialmente um modelo KMeans com 2 clusters, recuperei a inércia do modelo, que representa a soma das distâncias dos pontos em relação aos centróides dos seus respectivos agrupamentos.
Além da inércia, também calculei o Silhouette Score, que permite avaliar o quanto os pontos estão bem posicionados dentro dos seus clusters e separados dos demais grupos. Essa métrica é importante porque ajuda a entender melhor a qualidade da separação encontrada pelo modelo.
Em seguida, criei uma função para avaliar diferentes quantidades de clusters, variando de 2 até 20. Para cada valor de k, o modelo foi treinado novamente e foram calculadas a inércia e a silhueta. Esse processo permite comparar o comportamento do modelo em diferentes configurações, em vez de assumir que a primeira quantidade escolhida de clusters é necessariamente a melhor.
Também implementei a visualização do gráfico de silhueta, que mostra como os dados estão distribuídos dentro de cada cluster, e o gráfico do método do cotovelo, que auxilia na análise da redução da inércia conforme aumentamos o número de agrupamentos.
Essa etapa foi importante para reforçar que, em problemas de aprendizado não supervisionado, a avaliação do modelo não é feita comparando com uma resposta correta, mas sim analisando métricas e visualizações que ajudam a interpretar se os grupos encontrados fazem sentido.
Link do repositório:
https://github.com/Moquiuti/Clusteriza-o-Lidando-com-dados-sem-r-tulo/blob/main/atividade_metricas_clusterizacao.py