从机器学习到kmeans

聚类是一种非监督学习,他和监督学习里的分类有相似之处,两者都是把样本分布到不同的组里去。区别在于,分类分析是有标签的,聚类是没有标签的。或者说,分类是有y的,聚类是没有y的,只有X。所以,聚类只能根据X的特征本身,把样本分布到不同的组。
比如,我们有个成语,叫物以类聚,人以群分。我们可以把人分成男人和女人,这里分组的根据是人本身的属性-性别。而性别是知道的,而不需要用一个公式求得。
问题
这里,我们用的数据集是sklearn自带的数字数据集。

这些图片都是8 * 8 = 64 个点组成,每个点的数值从0到15。我们用PCA降维并归一化(Normalization)以后,得到以下数据集:

其实,这部分的处理和sklearn的示例代码是一致的。我会替换掉sklearn的kmeans算法,用自己的kmeans算法做聚类。
kmeans算法原理
kmeans中文叫k均值,不过我们平时交流都叫他kmeans。我个人反对把写着算法翻译成中文,因为这样只是增加了我们的负担。这里的k,是指要把数据集分成k组。means是指同一个组group(或者叫簇cluster)里,所有的样本求平均值,得到他们的centroid(中心)。
这个算法是通过以下两个步骤不断的交替,来实现聚类的:
- 用求平均值的方法,求每个组的centroid
- 根据centroids,计算样本到centroids的距离,判断这个样本属于哪个组。
手写算法
初始化centroids。首先,随机初始化k个centroids。
def init_centroids(k, n_features):
return np.random.random(k * n_features).reshape((k, n_features))
接着用求平均值的方法,求每个组的centroid
def update_centroids(points, centroid_index):
k = max(centroid_index)+</

本文介绍了如何从机器学习的基础概念过渡到kmeans聚类算法,通过手写算法详细解释了kmeans的工作原理。首先,讨论了聚类与分类的区别,然后阐述了kmeans算法的步骤,并提供了自己实现的算法代码。接着,对比了自定义kmeans算法与sklearn内置算法的结果,证明两者一致性。最后,分享了完整的源代码链接和系列文章推荐。
最低0.47元/天 解锁文章
1410





