R语言之K-mean聚类分析

努力的小白

已于 2022-07-15 17:15:33 修改

阅读量4.9k

点赞数 8

文章标签： r语言聚类 k-means kmeans

于 2022-07-15 17:11:06 首次发布

本文链接：https://blog.youkuaiyun.com/xs011/article/details/125774662

版权

本文介绍了如何使用R语言自定义实现K-means聚类算法，并与内置kmeans函数进行了比较。通过对比结果，发现除了迭代次数可能因随机初始中心而不同外，其余结果一致。作者还提到将在后续文章中探讨算法流程、改进点和方向。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

K-mean聚类是很基础的算法，在本科阶段大家都会学，如何通过R语言自己写K-mean算法，话不多说，上代码，算法流程和函数解释代码后

K_means <- function(data,k,max.iter = 10){
rows <- nrow(data)                 #获取行数
cols <- ncol(data)                 #获取列数
within <- numeric(k)               #用于存储组类平方和
lable_matrix <- matrix(0,rows,2)   #用于存储类标签及到类中心的距离
centers <- matrix(0,cols,k)        #用于存储类中心
centers_matrix <- matrix(0,rows,k) #用于存储初始确定初始类中心时到类中心的距离
iter <- 0                          #迭代次数
random <- sample(1:rows,1)
centers[,1] <- as.matrix(data[random,])
for(j in 2:k){
 for(i in 1:rows){
  centers_matrix[i,j] <- sum((data[i,] - centers[,j-1])^2)+centers_matrix[i,j-1]
 }
 centers[,j] <- as.matrix(data[which(centers_matrix[,j] == max(centers_matrix[,j])),])
}                                  #计算初始类中心
changed <- TRUE                    #用于判断数据的类标签是否发生改变
while(changed){
 if(iter >= max.iter){
  changed <- FALSE