
聚类
小麦粒
我的人生,我做主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
聚类总结(一)K-means、层次、DBSCAN、均值漂移、K-Means 与 KNN
K-means是无监督的聚类算法。其主要思想是选择K个点作为初始聚类中心, 将每个对象分配到最近的中心形成K个簇,重新计算每个簇的中心,重复以上迭代步骤,直到簇不再变化或达到指定迭代次数为止。,让簇内的点尽量紧密的连接在一起,而让簇间的距离尽量的大。原创 2019-07-30 22:50:47 · 8042 阅读 · 0 评论 -
聚类总结(二)聚类性能评估、肘部法则、轮廓系数
我们知道k-means是以最小化样本与质点平方误差作为目标函数,将每个簇的质点与簇内样本点的平方距离误差和称为畸变程度(distortions),那么,对于一个簇,它的畸变程度越低,代表簇内成员越紧密,畸变程度越高,代表簇内结构越松散。 畸变程度会随着类别的增加而降低,但对于有一定区分度的数据,在达到某个临界点时畸变程度会得到极大改善,之后缓慢下降,这个临界点就可以考虑为聚类性能较好的点。 基于这个指标,我们可以重复训练多个k-means模型,选取不同的k值,来得到相对合适的聚类类别(簇内误方差(SSE))原创 2019-07-31 09:46:15 · 35248 阅读 · 4 评论 -
聚类(三)k-means++、k-means参数、Mini Batch K-Means
k-means 优缺点:** 1.算法快速、简单; 2.对大数据集有较高的效率并且是可伸缩性的; 3.时间复杂度近于线性,而且适合挖掘大规模数据集。K-Means聚类算法的时间复杂度是O(n×k×t) ,其中n代表数据集中对象的数量,t代表着算法迭代的次数,k代表着簇的数目 。计算复杂度在最坏的情况下为 O(n^(k+2/p)),其中n是样本量,p是特征个数。原创 2019-07-31 15:21:16 · 4908 阅读 · 0 评论 -
聚类(四)KMeans基本框架\KMeans++实现\K-Means使用 load_iris
一、K-Means使用 load_iris二、KMeans++实现三、KMeans基本框架实现有趣的事,Python永远不会缺席培训说明原创 2019-07-31 16:28:13 · 3007 阅读 · 0 评论