基于边界和线性规划的特征加权算法
1. 引言
特征选择在机器学习和模式识别中起着重要作用,它能够减少存储空间和计算复杂度。近年来,特征选择广泛应用于图像分类、字符识别和基因分类等领域。
特征选择方法通常可分为过滤模式和包装模式。过滤模式通过独立函数(如距离、互信息等)计算特征的质量;而包装模式则使用分类技术来评估候选特征。
在过去十年中,边界(Margin)被广泛用于评估特征质量,它可被理解为不同类之间的广义距离度量。通过最大化边界并最小化边界引起的分类损失,我们可以获得良好的分类模型。目前,已经有多种基于边界的特征选择方法,如G - filp、Simba、Relief和E - Relief等。
然而,这些算法存在两个问题:一是仅使用决策边界附近不同类样本点之间的距离来构建分类损失函数;二是对于非凸函数,只有枚举法才能获得最优解,梯度下降算法和迭代过程都是近似解。
为了解决这些问题,前人提出了一些改进算法。例如,Li在2009年提出了基于最近邻分类损失边界的特征选择算法,使用欧几里得距离计算样本间距离,并通过梯度下降算法计算特征权重。Weinberger设计了LMNN算法,使用马氏距离计算边界,采用SDP方法计算协方差矩阵以获取特征权重,并移除无损失的样本以降低时间复杂度。Chen则通过添加样本距离平方与权重因子的表达式来重建分类损失函数,并通过线性规划计算特征权重。
但这些算法仍存在一些缺点,如使用对噪声敏感的铰链损失函数。因此,我们通过对边界损失进行几何分析,给出了更有效的最近邻分类损失表达式,采用软边界策略,将分类损失函数转化为线性规划问题,进而计算最优特征权重。