kmeans算法及python代码参考

最新推荐文章于 2024-01-25 20:57:36 发布

原创最新推荐文章于 2024-01-25 20:57:36 发布 · 700 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

DATA MINING &machine learning 专栏收录该内容

13 篇文章

订阅专栏

本文详细介绍了如何使用Python实现Pearson相关系数计算及K-means聚类算法，包括代码实现和核心逻辑分析。

算法介绍和分析请参考：http://hi.baidu.com/chenjinandy/blog/item/5c4d5344b607c3248794739e.html

# -*- coding:gb2312 -*-

'''

Created on 2011-10-21

@author: chenjinandy

'''

from math import sqrt

def pearson(v1,v2):

# Simple sums

sum1=sum(v1)

sum2=sum(v2)

# Sums of the squares

sum1Sq=sum([pow(v,2) for v in v1])

sum2Sq=sum([pow(v,2) for v in v2])

# Sum of the products

pSum=sum([v1[i]*v2[i] for i in range(len(v1))])

# Calculate r (Pearson score)

num=pSum-(sum1*sum2/len(v1))

den=sqrt((sum1Sq-pow(sum1,2)/len(v1))*(sum2Sq-pow(sum2,2)/len(v1)))

if den==0: return 0

return 1.0-num/den

v1=[1.22,1.33,4.55,6.45,6.31,4.12]

v2=[1.22,1.33,4.55,6.45,6.31,4.12]

print pearson(v1,v2)

dataset=[(1,0),(0,1),(1,1),(2,1),(1,2),(2,2),(3,2),(6,6),(7,6),(8,6),(6,7),(7,7),(8,7),(9,7),(7,8),(8,8),(9,8),(8,9),(9,9)]

print dataset

#kmeans 的pythondex实现

def isequal(v1,v2):

if (v1[0]*10==v2[0]*10)and(v1[1]*10==v2[1]*10):

return 1

else:

return 0

def order(dataset,k):

type=[]

temp=0

for i in range(len(dataset)):

for j in range(k):

if pearson(dataset[i],dataset[j])<pearson(dataset[i],dataset[temp]):

temp=j

type.append(temp)

print dataset[i]

print "被归为第 %s" %temp+"类"

return type

def newcenter(dataset,num,type):

cnt=0

sumx=0.0

sumy=0.0

point=(0.0,0.0)

for i in range(len(dataset)):

if type[i]==num:

sumx+=dataset[i][0]

sumy+=dataset[i][1]

cnt+=1

sumx=sumx/cnt

sumy=sumy/cnt

point=(sumx,sumy)

return point

def cluster(dataset,k):

center=[]

oldcenter=[]

for i in range(k):

# print i,dataset[i]

cen=dataset[i]

center.append(cen)

oldcen=(0.0,0.0)

oldcenter.append(oldcen)

cnt=0

while cnt!=k:

type=order(dataset,k)

for i in range(k):

center[i]=newcenter(dataset,i,type)

if isequal(center[i],oldcenter[i]):

cnt+=1

else:

oldcenter[i]=center[i]

for i in range(k):

print "属于类别 %s" %i+"的点有如下："

for j in range(len(dataset)):

if type[j]==i:

print dataset[j]

for i in range(len(dataset)):

print dataset[i]

cluster(dataset,3)

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。