K-Means Using Python

最新推荐文章于 2025-03-05 08:00:00 发布

原创最新推荐文章于 2025-03-05 08:00:00 发布 · 2.1k 阅读

1 ·

CC 4.0 BY-SA版权

Python 专栏收录该内容

6 篇文章

订阅专栏

原文来自我的个人博客：http://www.yuanyong.org/blog/python/k-means-using-python

最近在翻译《Programming Computer Vision with Python》第六章Clustering Images，其中用到了k-means，这里根据书中给出的实例对k-means python code做一些解释。关于k-means聚类算法的原理，这里不再赘述，原理可以查阅相关资料。

在给出完整代码之前，我们先来理解两个numpy、scipy两个模块中设计到的两个函数，分别对应的是numpy.vstack()和scipy.cluster.vq()。我们直接看这两个函数的例子：

Example for numpy.vstack()

 
>>> a = np.array([1, 2, 3])
 
>>> b = np.array([2, 3, 4])
 
>>> np.vstack((a,b))

输出结果为：

array([[1, 2, 3], [2, 3, 4]])

从这个简单的例子可以看出，np.vstack()这个函数实现connection的作用，即connection(a,b)，为了看得更清楚，我们再来看一个这个函数的例子：

 
>>> a = np.array([[1], [2], [3]])
 
>>> b = np.array([[2], [3], [4]])
 
>>> np.vstack((a,b)）

输出结果这里不给出了，具体可以再python shell上test。好了，现在我们了解了这个函数的作用，我们再来看scipy.cluster.vq()函数的作用，这里也直接给出实例，通过实例解释该函数的作用：

Example for scipy.cluster.vq()

 
>>> from numpy import array
 
>>> from scipy.cluster.vq import vq
 
>>> code_book = array([[1.,1.,1.],[2.,2.,2.]])
 
>>> features  = array([[  1.9,2.3,1.7],[  1.5,2.5,2.2],[  0.8,0.6,1.7]])
 
>>> vq(features,code_book)

输出结果为：

(array([1, 1, 0]), array([ 0.43588989, 0.73484692, 0.83066239]))，下图解释了该结果的意义，array([1, 1, 0])中的元素表示features中的数据点对应于code_book中离它最近距离的索引，如数据点[1.9, 2.3, 1.7]离code_book中的[2., 2., 2.]最近，该数据点对的对应于code_book中离它最近距离的索引为1，在python中索引值时从0开始的。

当然，对于上面的结果可以用linalg.norm()函数进行验证，验证过程为：

 
>>> from numpy import array
 
>>> from scipy.cluster.vq import vq
 
>>> code_book = array([[1.,1.,1.],[2.,2.,2.]])
 
>>> features  = array([[  1.9,2.3,1.7],[  1.5,2.5,2.2],[  0.8,0.6,1.7]])
 
>>> vq(features,code_book)
 
>>> from numpy import *
 
dist = linalg.norm(code_book[1,:] - features[0,:])

输出的dist的结果为：dist: 0.43588989435406728

好了，了解完这两个函数，我们可以上完整了演示k-means完整的代码了。

 
"""
 
Function: Illustrate the k-means
 
Date: 2013-10-27
 
""""
 
from pylab import *
 
from scipy.cluster.vq import *
 
 
 
class1 = 1.5 * randn(100,2)
 
class2 = randn(100,2) + array([5,5])
 
features = vstack((class1,class2))
 
centroids,variance = kmeans(features,2)
 
code,distance = vq(features,centroids)
 
figure()
 
ndx = where(code==0)[0]
 
plot(features[ndx,0],features[ndx,1],'*')
 
ndx = where(code==1)[0]
 
plot(features[ndx,0],features[ndx,1],'r.')
 
plot(centroids[:,0],centroids[:,1],'go')
 
axis('off')
 
show()