
聚类
文章平均质量分 92
学习者的旅途
这个作者很懒,什么都没留下…
展开
-
k-means聚类算法
引言已经很久没有更新博客了,最近在工作之余归纳总结了一下学习的理论知识和工作中实践过的算法,希望能分享给大家,也是自我提升。聚类算法聚类算法是属于无监督学习算法,不需要事先知道样本所属类别。在实际工作中,常用于:1)用户分类,比如进行营销活动时在冷藏期时还不知道用户对活动的相应结果,就会采用对用户进行聚类,对不同的类别指定不同的策略,再根据之后的用户营销响应结果对用户进行类别的调整,进而预...原创 2019-12-08 12:48:08 · 1453 阅读 · 0 评论 -
k-medoids聚类算法
引言上一篇博客介绍了k-means聚类算法,该算法虽然高效快速,但却受异常点的影响严重,如果样本中存在异常点,则聚类结果会产生极大的偏差。针对异常点对聚类结果的影响,本文介绍k-medoids聚类算法,k-medoids算法能有效削弱异常点的影响。k-medoids算法k-mediods每次选取的中心点,必须是样本点,而 k-means每次选取的中心点可以是样本点之外的点,就好比中位数和平均...原创 2019-12-08 17:25:04 · 11080 阅读 · 7 评论 -
k-modes聚类算法
引言之前介绍的K-means和k-medoids算法都是针对数据为数值型的聚类算法,计算样本间的距离采用的是欧式距离,所以如果数据变量是类别型的采用这两种算法,就需要先进行one-hot编码或者dummy coding。针对类别型变量的聚类,可以采用k-modes聚类算法。k-modes算法当数据变量为数值型时,可以采用k-modes算法进行聚类。因为该算法中计算的是样本间的汉明距离,如果变...原创 2019-12-08 19:29:27 · 17555 阅读 · 5 评论 -
k-prototypes聚类算法
引言数据变量为单一的数值型和单一的类别型的聚类算法之前都已经介绍过了,但是实际的数据大多数是数值型和类别型变量混合。针对混合型变量的数据,采用k-prototypes算法进行聚类。k-prototypes算法k-prototypes算法在聚类的过程中,是将数据的数值型变量和类别型变量拆开,分开计算样本间变量的距离,再将两者相加,视为样本间的距离。k-prototypes聚类的准则就是使用一...原创 2019-12-08 19:54:45 · 16313 阅读 · 14 评论