oracle 聚类团伙,聚类算法(K-means聚类算法)

最新推荐文章于 2021-04-08 05:03:22 发布

转载最新推荐文章于 2021-04-08 05:03:22 发布 · 542 阅读

·

0

·

文章标签：

#oracle 聚类团伙

这段代码使用pandas和sklearn库实现KMeans聚类算法，对数据xls文件中的特定列进行离散化处理。通过设定聚类数目k=4，对每个证型系数进行聚类，并统计各类别数量。聚类结果转化为DataFrame格式，记录了每个类别的边界值和数量，最后将结果保存到processedfile中。

部署运行你感兴趣的模型镜像

#-*- coding: utf-8 -*-

'''聚类离散化，最后的result的格式为：

1 2 3 4

A 0 0.178698 0.257724 0.351843

An 240 356.000000 281.000000 53.000000

即(0, 0.178698]有240个，(0.178698, 0.257724]有356个，依此类推。'''

from __future__ importprint_functionimportpandas as pdfrom sklearn.cluster import KMeans #导入K均值聚类算法

datafile= '../data/data.xls' #待聚类的数据文件

processedfile = '../tmp/data_processed.xls' #数据处理后文件

typelabel ={u'肝气郁结证型系数':'A', u'热毒蕴结证型系数':'B', u'冲任失调证型系数':'C', u'气血两虚证型系数':'D', u'脾胃虚弱证型系数':'E', u'肝肾阴虚证型系数':'F'}

k= 4 #需要进行的聚类类别数

#读取数据并进行聚类分析

data = pd.read_excel(datafile) #读取数据,data是个dataframe

keys =list(typelabel.keys())

result= pd.DataFrame() #声明一个空DataFrame结构

if __name__ == '__main__': #判断是否主窗口运行，如果是将代码保存为.py后运行，则需要这句，如果直接复制到命令窗口运行，则不需要这句。

for i inrange(len(keys)):#调用k-means算法，进行聚类离散化

print(u'正在进行“%s”的聚类...' %keys[i])

kmodel= KMeans(n_clusters = k, n_jobs = 4) #n_jobs是并行数，一般等于CPU数较好

#print(data[[keys[i]]].as_matrix());exit();

kmodel.fit(data[[keys[i]]].as_matrix()) #训练模型,as_matrix()转化为Numpy数组,返回指定数列

#print(data[[keys[i]]]);exit();

r1 = pd.DataFrame(kmodel.cluster_centers_, columns = [typelabel[keys[i]]]) #聚类中心,kmodel.cluster_centers_返回四个聚类中心点

#选取K个初始类簇中心(通常是从数据集随机选取K个数据)的情况下,遍历数据集中所有点,计算到K个聚类中心点的距离,那个距离最近,

#就分配到该类簇中心所代表的类簇,分配完毕后,重新选取K个类簇的中心点(K个类簇各自的平均值),重新遍历数据集到K个类簇中心的距离,

#直到类簇中心点的变化很小,或者达到指定的迭代(计算)次数.

#缺点：可能收敛到局部最小值(受到初始簇中心的影响)，

#在大规模数据集上收敛较慢(每次迭代均需要历遍数据集中的每一个数据样本，且迭代次数默认值为300)

#print([typelabel[keys[i]]]);

r2= pd.Series(kmodel.labels_).value_counts() #分类统计,K个聚类各有多少个数据点

#DataFrame和Series是pandas的两种数据结构,series理解为索引数组,DataFrame是Series组成的二维数据,具有航索引和列索引,形状理解为矩阵

r2= pd.DataFrame(r2, columns = [typelabel[keys[i]]+'n']) #转为DataFrame，记录各个类别的数目

#print(r2);exit();

r = pd.concat([r1, r2], axis = 1).sort_values(typelabel[keys[i]]) #匹配聚类中心和类别数目,sort_values按某列排序

#print(r);exit();

r.index = [1, 2, 3, 4]

r[typelabel[keys[i]]]= pd.Series.rolling(r[typelabel[keys[i]]], 2).mean() #rolling_mean()用来计算相邻2列的均值

#(废弃rolling_mean,用Series.rolling().mean()代替)，以此作为边界点。

r[typelabel[keys[i]]][1] = 0.0 #这两句代码将原来的聚类中心改为边界点。

result =result.append(r.T)

result= result.sort_index() #以Index排序，即以A,B,C,D,E,F顺序排

result.to_excel(processedfile)

您可能感兴趣的与本文相关的镜像

HunyuanVideo-Foley

HunyuanVideo-Foley

语音合成

HunyuanVideo-Foley是由腾讯混元2025年8月28日宣布开源端到端视频音效生成模型，用户只需输入视频和文字，就能为视频匹配电影级音效

weixin_39811036

博客等级

码龄8年

关注

34点赞

227收藏

24粉丝

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。