非监督式非线性缩放参数估计以提升相异度空间分类性能
1. 引言
在统计模式识别中,对象通常被表示为向量,其元素对应特征的数值,这样对象就成为向量空间(特征空间)中的点。然而,这种传统表示在处理符号数据(如图形和语法)或原始传感器测量值(如信号和图像)时,往往存在特征提取困难的问题。
作为替代方案,Pekalska和Duin提出测量对象对之间的相异度,并将其组织成向量,使每个对象在相异度空间中表示为一个点。在这个空间中,可以训练和应用任何分类器。相异度表示属于(不)相似模式识别领域,近年来得到了积极研究。
在许多模式分类问题中,需要对特征空间进行归一化,常见方法是对向量空间的轴进行线性缩放。但在相异度空间中,由于所有特征性质相同(都是到参考组对象的距离),线性缩放的重要性相对较低。不过,更复杂的缩放操作,如非线性变换,对提升分类性能非常有用。Duin等人发现,对给定相异度进行幂变换的非线性缩放,有助于提高相异度空间中最近邻分类的性能。当幂小于1时,幂变换具有以下优点:
- 对象之间的距离趋于相等。
- 到离群点的距离缩小。
- 通过强调近邻对象之间的距离,扩大每个对象的邻域。
然而,确定合适的幂参数是一个关键问题。通常,该参数是手动设置或通过穷举搜索得到的,Duin等人使用的留一法交叉验证在处理大型数据集时计算成本过高,且无法解释非线性缩放的拓扑效应。
本文提出了一种全新的非监督式准则,用于指导幂变换参数的选择。该准则试图在数据分散度的降低和相异度空间固有维度的增加之间找到平衡。实验表明,使用该准则选择的最佳参数进行幂变换,分类准确率通常显著优于未预处理的空间,且多次与交叉验证方法相当或更优。
超级会员免费看
订阅专栏 解锁全文
9

被折叠的 条评论
为什么被折叠?



