Skip to content

Métodos de Avaliação do K no K Means

Izabela Cardoso edited this page Nov 9, 2017 · 6 revisions

Calinski Harabasz

Para avaliação do número ideal de clusters, um dos métodos utilizados foi o Calinski Harabasz. Este método refere-se a relação entre a dispersão intra-cluster e a dispersão entre os clusters. Ele é definido por:

calinski

Onde,
N refere-se ao número de obserações
k, refere-se ao número de clusters
SSB, refere-se a soma dos quadrados entre os clusters
SSW, refere-se a soma dos quadrados dentro do cluster.

Quanto maior o valor dessa proporção, mais coesos serão os clusters (variação baixa dentro do cluster) e mais distintos/separados serão os clusters individuais (variação alta entre clusters).

SSI (Simple Structure Index).

O Simple Structure Index combina três elementos que influenciam a interpretabilidade de uma solução: a diferença máxima de cada variável entre os clusters, os tamanhos dos clusters mais contrastantes e o desvio de uma variável nos centros do cluster em comparação com a média geral. Esses três elementos são multiplicativamente combinados e normalizados para dar um valor entre 0 e 1. O máximo valor é o escolhido.

Referências

[1] WEINGESSEL, Andreas; DIMITRIADOU, Evgenia; DOLNICAR, Sara. An examination of indexes for determining the number of clusters in binary data sets. 1999.

[2] OKSANEN, Jari et al. The vegan package. Community ecology package, v. 10, p. 631-637, 2007.

Clone this wiki locally