3、半监督聚类的 k - 中心点模型研究

半监督聚类的 k - 中心点模型研究

1. 引言

在无监督机器学习中,我们事先对输入数据一无所知。这类学习的目标通常是通过查看数据元素之间的相似性或差异性,来对输入数据进行最佳描述。聚类作为无监督机器学习的主要技术之一,旨在解决这样一个普遍问题:给定一组数据对象 $O = {o_1, \ldots, o_n}$,找出那些同类且/或分离良好的子集,即聚类。

这里的同类性意味着同一聚类中的对象必须相似,而分离性则表示不同聚类中的对象必须相互不同。一对对象 $(o_i, o_j)$ 之间的相异性(或相似性)$d_{ij}$ 通常是根据对象的属性计算得出的,一般满足 $d_{ij} = d_{ji} \geq 0$ 且 $d_{ii} = 0$。需要注意的是,相异性并不一定需要满足三角不等式,也就是说不一定是距离。

尽管聚类问题的定义简洁,但它会因所使用的具体模型和要聚类的数据类型而有显著变化。聚类准则在聚类结果中起着至关重要的作用。例如,一个聚类的同类性可以用其直径来表示,即同一聚类中两个对象之间的最大相异性;而聚类的分离性可以用分割或聚类内对象与聚类外对象之间的最小相异性来表示。

考虑相异性度量时,上述定义产生了两类聚类准则:一类是为了分离性而需要最大化的准则,另一类是为了同类性而需要最小化的准则。一般来说,这些准则以阈值、最小和或最大和的形式表达。例如,直径最小化问题就是要最小化一组聚类中的最大直径,而分割最大化问题则是要最大化聚类分区中的最小分割。所使用的聚类准则也决定了相关聚类问题的计算复杂度。例如,分割最大化问题在时间复杂度为 $O(n^2)$ 时是多项式可解的,而直径最小化问题在平面上对于超过两个聚类的情况已经是 NP 难问题。

为了

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值