R语言 kmeans()聚类实例

一、k-means 8点2分类简单例题

#k-means/k均值
#n=8,k=2
rm(list=ls())
library(ggplot2)
setwd("D:/AUniversity/GameDesign/R/Project/聚类")

#导入数据
x<-c(1,2,1,2,4,5,4,5)
y<-c(1,1,2,2,3,3,4,4)
data<-data.frame(x,y)

#计算距离
distance<-function(x1,y1,x2,y2){
  return(abs(x1-x2)+abs(y1-y2))
}

#随机选择的两个对象,如序号1和序号3当作初始点
#中心点即为x,y
cen1=matrix(c(data[1,1],data[1,2]))
cen2=matrix(c(data[3,1],data[3,2]))

#两个簇
c1=c(1);c2=c(3)

#先将两个簇分好
for(i in 1:length(x)){
  dis1=distance(x[i],y[i],cen1[1],cen1[2])
  dis2=distance(x[i],y[i],cen2[1],cen2[2])
  if(dis1==0||dis2==0)
    next
  else{
    if(dis1<=dis2)
      c1=c(c1,i)
    else
      c2=c(c2,i)
  }
}

#修改不同簇的点集
repeat{
  
  new_c1=c1
  
  #重新计算cen的x、y值
  cen1[1]=mean(x[new_c1])
  cen1[2]=mean(y[new_c1])
  cen2[1]=mean(x[c2])
  cen2[2]=mean(y[c2])
  
  #分两个簇判断
  temp_length=length(c1)
  dex=0
  for(i in 1:temp_length){
    dex=dex+1
    
    #算距离
    dis1=distance(x[c1[dex]],y[c1[dex]],cen1[1],cen1[2])
    dis2=distance(x[c1[dex]],y[c1[dex]],cen2[1],cen2[2])
    
    #修改内部点
    if(dis1>dis2){
      c2=c(c2,new_c1[dex])
      new_c1=new_c1[-dex]
      dex=dex-1
    }
  }
  temp_length=length(c2)
  dex=0
  for(i in 1:temp_length){
    dex=dex+1
    
    #算距离
    dis1=distance(x[c2[dex]],y[c2[dex]],cen1[1],cen1[2])
    dis2=distance(x[c2[dex]],y[c2[dex]],cen2[1],cen2[2])
    
    #修改内部点
    if(dis2>dis1){
      new_c1=c(new_c1,c2[dex])
      c2=c2[-dex]
      dex=dex-1
    }
  }
  
  #排序
  new_c1=sort(new_c1)
  c2=sort(c2)
  
  #修改前和修改后相等则结束
  if(identical(c1, new_c1)){
    break
  }
  else c1=new_c1
}

#显示
cat("一类点序号:",c1,";中心点:",t(cen1))
cat("二类点序号:",c2,";中心点:",t(cen2))

#作图
#区分两类点,整合
for(i in 1:length(x)){
  for(j in 1:length(c1)){
    if(i==c1[j]){
      data[i,3]="c1"
      break
    }
  }
}
for(i in 1:length(x)){
  for(j in 1:length(c2)){
    if(i==c2[j]){
      data[i,3]="c2"
      break
    }
  }
}
names(data)=c("x","y","cu")
#show(data)
ggplot(data,aes(x=x,y=y,colour=cu,shape=cu))+geom_point()

调用ggplot,调整不同点集。不同颜色和图案画出来

二、调用R语言自带kmeans()对给定数据集表示的文档进行聚类。

给定数据集:

  1. 数据代表的是文本信息。
  2. 第一行代表词语,由于保密原因,词语已经被转意。第一列代表了文本的编号。
  3. 红框中的数字为对应词的词频。
  4. 共113个样本,用K-Means算法将样本分为8类。
rm(list=ls())
setwd("D:/AUniversity/GameDesign/R/Project/聚类")
data = read.table("data_cluster.txt")
#调用k—means,分为8类
km <- kmeans(data, 8) 
#共多少封
lie=(1:dim(data)[1])
#添加序号列
data$lie=lie
#显示第几封被分为哪一类
ggplot(data,aes(x=data$lie,y=km$cluster,colour=km$cluster))+geom_point()
#dev.off()

### KMeans聚类算法实例教程 #### 导入必要的库 为了执行KMeans聚类,需要引入`numpy`, `pandas`, 和来自`sklearn.cluster`模块中的`KMeans`。此外,对于数据可视化部分,则会用到`matplotlib.pyplot`。 ```python import numpy as np import pandas as pd from sklearn.cluster import KMeans import matplotlib.pyplot as plt ``` #### 准备数据集 这里假设有一个Excel文件位于路径 `'D:\daily\data1\consumption_data.xls'` 中存储着销售和其他属性的数据。通过Pandas加载这些数据,并设置索引列为ID列[^3]。 ```python inputfile = r'D:\daily\data1\consumption_data.xls' data = pd.read_excel(inputfile, index_col='Id') print(data.head()) ``` #### 数据预处理 在应用任何机器学习模型之前,通常要对原始数据做一些预处理工作。在这个例子中,选择了简单的标准化方法来缩放特征值,使得它们具有零均值和单位方差,这有助于提高后续建模的效果。 ```python data_zs = (data - data.mean()) / data.std() print(data_zs.head()) ``` #### 构建与训练KMeans模型 定义好参数之后就可以创建一个KMeans对象并调用fit方法来进行实际的聚类操作了。此处设定了三个簇(`k=3`),并且允许的最大迭代次数为500次。 ```python model = KMeans(n_clusters=3, n_init='auto', max_iter=500) model.fit(data_zs) ``` #### 可视化结果 当完成聚类后,可以通过Matplotlib绘制散点图展示各个样本所属的不同类别。如果输入的是二维数据的话,可以直接利用前两维作为坐标轴;如果是多维数据则可能需要用降维技术先将其转换成二维再做图形表示。 ```python plt.scatter(data_zs.iloc[:, 0], data_zs.iloc[:, 1], c=model.labels_) centers = model.cluster_centers_ plt.scatter(centers[:, 0], centers[:, 1], marker="*", color='red') plt.show() ``` 上述代码片段展示了如何使用Python中的Scikit-Learn库实现基本的KMeans聚类流程,包括数据准备、模型构建及最终的结果呈现[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值