半监督聚类的 k - 中心点模型研究
1. 引言
在无监督机器学习中,我们事先对输入数据一无所知。这类学习的目标通常是通过查看数据元素之间的相似性或差异性,来对输入数据进行最佳描述。聚类作为无监督机器学习的主要技术之一,旨在解决这样一个普遍问题:给定一组数据对象 $O = {o_1, \ldots, o_n}$,找出那些同类且/或分离良好的子集,即聚类。
这里的同类性意味着同一聚类中的对象必须相似,而分离性则表示不同聚类中的对象必须相互不同。一对对象 $(o_i, o_j)$ 之间的相异性(或相似性)$d_{ij}$ 通常是根据对象的属性计算得出的,一般满足 $d_{ij} = d_{ji} \geq 0$ 且 $d_{ii} = 0$。需要注意的是,相异性并不一定需要满足三角不等式,也就是说不一定是距离。
尽管聚类问题的定义简洁,但它会因所使用的具体模型和要聚类的数据类型而有显著变化。聚类准则在聚类结果中起着至关重要的作用。例如,一个聚类的同类性可以用其直径来表示,即同一聚类中两个对象之间的最大相异性;而聚类的分离性可以用分割或聚类内对象与聚类外对象之间的最小相异性来表示。
考虑相异性度量时,上述定义产生了两类聚类准则:一类是为了分离性而需要最大化的准则,另一类是为了同类性而需要最小化的准则。一般来说,这些准则以阈值、最小和或最大和的形式表达。例如,直径最小化问题就是要最小化一组聚类中的最大直径,而分割最大化问题则是要最大化聚类分区中的最小分割。所使用的聚类准则也决定了相关聚类问题的计算复杂度。例如,分割最大化问题在时间复杂度为 $O(n^2)$ 时是多项式可解的,而直径最小化问题在平面上对于超过两个聚类的情况已经是 NP 难问题。
为了
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



