转载请注明https://blog.youkuaiyun.com/l317820483/article/details/84866200
Abstract
- 特征选择在机器学习中非常重要,尤其是在生物信息学任务中。
- 本文提出一种新的鲁棒特征选择方法,这一方法核心在于在损失函数核正则化项中联合使用21范数。
- 基于21范数的损失函数对于数据点中的异常值具有较好的鲁棒性,而基于21范数的正则化项则可以选择所有数据点稀疏的特征。
- 本文证明了算法的收敛性。同时通过实验结果证明了方法的性能。
Introduction
- 一般来说,特征选择有三种模型:1.滤波方法,通过独立的分类器进行特征选择;2.包装方法,将预测方法作为一个黑盒,对特征的子集进行打分;3.嵌入式方法,将特征选择的过程直接嵌入在训练过程中。
- 本文采用了基于21范数的损失函数来消除异常值,因为基于2范数的损失函数对异常值敏感。
- 提出了基于21范数的正则化项,通过带有连接稀疏性的数据点选择特征,即每个特征对于所有的数据点要么具有较小的分数要么具有较大的分数。
Notations and Definitions
- 给出了21范数的定义:
- 21范数对于行来说具有旋转不变性: ∣ ∣ M R ∣ ∣ 2 , 1 = ∣ ∣ M ∣ ∣ 2 , 1 ||MR||_{2,1}=||M||_{2,1} ∣∣MR∣∣2,1=∣∣M∣∣2,1
- 将21范数推广到了rp范数:
Robust Feature Selection Based on 2,1-Norms
- 以最小二乘回归为例,目标函数如下: min W ∥ W T x i − y i ∥ 2 + γ R ( W ) \min_{W} \| W^Tx_i-y_i\|_{2}+\gamma R(W) Wmin∥W