R中的聚类分析:确定最佳聚类数-
如何选择最佳的聚类数来做k-means分析?绘制以下数据的子集后,多少个聚类是合适的?如何进行聚类树分析?
n = 1000
kk = 10
x1 = runif(kk)
y1 = runif(kk)
z1 = runif(kk)
x4 = sample(x1,length(x1))
y4 = sample(y1,length(y1))
randObs <- function()
{
ix = sample( 1:length(x4), 1 )
iy = sample( 1:length(y4), 1 )
rx = rnorm( 1, x4[ix], runif(1)/8 )
ry = rnorm( 1, y4[ix], runif(1)/8 )
return( c(rx,ry) )
}
x = c()
y = c()
for ( k in 1:n )
{
rPair = randObs()
x = c( x, rPair[1] )
y = c( y, rPair[2] )
}
z <- rnorm(n)
d <- data.frame( x, y, z )
如果你的问题是"如何确定有多少个聚类适合对我的数据进行kmeans分析?“,那么这里有一些选择。
首先,一些可再现的数据(Q中的数据是…我不清楚):
n = 100
g = 6
set.seed(g)
d <- data.frame(x = unlist(lapply(1:g, function(i) rn
本文探讨了在R中进行聚类分析时如何选择最佳的聚类数,特别是在k-means分析中。通过分析误差平方和(SSE)曲线、进行聚类树分析、应用卡林斯基准则以及利用期望最大化(EM)的贝叶斯信息标准,可以判断合适的数据分组数量。同时推荐使用特定的R库来辅助确定最佳聚类数。
订阅专栏 解锁全文
698

被折叠的 条评论
为什么被折叠?



