无监督功率变换估计与相异矩阵相似性分析
在数据分析和模式识别领域,处理复杂对象的特征表示和相似性比较是一个重要的研究方向。本文将介绍一种无监督的功率变换参数调整准则,以及多种相异矩阵的特征表示方法,并通过实验验证它们在不同场景下的性能。
无监督功率变换参数调整准则
提出了一种新颖的无监督准则,用于调整相异度的功率变换(非线性缩放)参数。该准则基于相异空间中每个维度的中值离散度(用四分位离散系数衡量)和所得相异空间的内在维度之间的权衡。
其背后的思想是,在相异空间中,最近邻分类器的良好性能与在缩小数据范围(以增加内在维度为代价)之间的折衷有关。缩小数据范围是可取的,因为通过减小范围,可以潜在地减少离群值的影响,因为我们在很大程度上减少了高距离(即到可能的离群值的距离),而不是减少短距离。
该准则是无监督的,因此甚至可以应用于直推式学习环境。在许多不同数据集上的实证结果部分支持了这一直觉。
相异矩阵的特征表示
当表征人员团队、分子或一般图形时,仅使用单个特征向量来编码所有信息是困难的。对于这些对象,可以使用相异矩阵来捕获子元素(人员、原子、节点)之间的相互作用或相似性。本文比较了几种相异矩阵的表示方法,这些方法可以编码矩阵的聚类特征、潜在维度或离群值。
相异矩阵的特性
假设我们有一组 $N$ 个大小为 $m_n \times m_n$ 的方形相异矩阵 ${D_n \in R^{m_n \times m_n}; n = 1…N}$。矩阵 $D_n$ 的一个元素表示为 $D_n(i, j)$,并且这些矩阵具有以下特征:
- 对象与其自身的相异度为零(即 $D_n$ 的对角
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



