《集体智慧编程》第3章 发现群组 个人笔记

本文介绍了两种常见的聚类方法:分级聚类和K-Means聚类。分级聚类通过连续不断地将最为相似的群组两两合并,形成群组的层级结构;而K-Means聚类则通过迭代将数据分配给最近的中心点,并更新聚类中心。此外,还探讨了如何使用多维缩放算法将数据间的差距可视化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第3章 发现群组

1、分级聚类

分级聚类通过连续不断地将最为相似的群组两两合并,来构造出一个群组的层级结构。其中每个群组都是从单一元素开始的,在每次迭代的过程中,分级聚类算法计算每两个群组间的距离,并将距离最近的两个群组合并成一个新的群组。这一过程会一直重复下去,直到只剩一个群组为止。
由于整个计算过程可能会非常耗时,所以不妨将每个配对的相关度计算结果保存起来,直到配对中的某一项被合并到另一个聚类中为止。

2、K-Means聚类

首先会随机确定k个中心为止,然后将各个数据项分配给最临近的中心点,然后更新聚类中心,重新分配,直至分配过程不再产生变化为止。

Tanimoto系数,代表的是交集与并集的比率。

3、多维缩放

算法根据每对数据项之间的差距情况,绘制出一副二维图,图中个数据项之间的距离远近,对应于它们彼此间的差异程度。
针对每两两构成的一对数据项,我们将它们的目标距离与当前距离进行比较,并求出一个误差值。根据误差值的情况按照比例将每个数据项的所在位置移近或移远少许量。每一个节点的移动,都是所有其他节点施加在该节点上的推拉综合效应。节点每移动一次,其当前距离和目标距离间的差距就会减少一些。这一过程会不断地重复多次,直到我们无法再通过移动节点来减少总误差为止。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值