特征选择方法学习笔记(三)

     之前已经看过两种特征选择的方法,一个是从局部结构出发,一个是从整体优化出发。这两中方法都取得了比较好的效果。那么,有没有既考虑局部结构又顾及总体优化呢的方法呢?聪明的研究者们的确想到了这两手抓两手都要硬的方法。今天我们就来看一种先从局部机构考虑,同时进行整体优化的好方法——高维数据分析中基于局部学习的特征选择方法(《Local Learning Based Feature Selection for High Dimensional Data Analysis》)。这篇文章2010年发表在IEEE transactions on pattern analysis and machine intelligence。在试验中发现,这个方法在大多数情况下是优于之前介绍的两种方法的。
     还是老套路,先解刨一下文章中提到的这个方法的主要思想,让大家看看内功心法。该方法最主要的思想是假设一个复杂的分类面在局部是线性的,然后定义了一个局部的边界区域范围(两类之间的区域范围),最后从全局的数据上去选择每个特征的权值让这个局部的边界区域范围之和最大。将权值排序后就可以获得排名靠前的特征子集了。这个思路最大一个亮点在于,将全局线性不可分的情况转化到了局部线性可分的情况,这样就直接能用线性的权重在原始特征空间中来表示分界面(回忆一下,在SVM中是投影到高维空间中来找线性分界面的),这样权重就直接代表了特征的重要程度(SVM中无法代表)。
     在实现这个思路的过程中,作者用了一个点的与其最近邻的不同类点与最近邻的相同类点距离之差来表示这个局部的边界范围。由于确定权重前,这个最近邻的点是不确定的(根据权重的变化,距离也是变化的),所以作者用了一个概率期望来表示这个距离。这儿有一个小小的问题,就是并不是所有点到其两类最近邻点距离之差都能表示边界区域大小的(想想在一个类内部的点的情况)。真正能反映边界情况的点是在边缘上的,如果在内部的点有一个离边界很远的话,可能将这样算出的边界区域范围之和拉得非常大,这样就有违这个思想的初衷了。
     这篇文章在实验中的方法表现出来虽然整体效果较好,并不是那么稳定,有时候能好于别的方法,有时候会比别的方法差很多。分析了下原因大概就是我之前提到的那个问题吧。如果改进一下,估计效果会好一些。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值