上一篇论文被审稿人说特征选择是在交叉验证的外部做的,存在过拟合的问题。所以这一次花了几天的时间弄清楚了交叉验证,libsvm和特征选择三者的关系。
首先libsvm内部是不包含特征选择的。libsvm的model.SV参数是把特征进行了一个区域的标准化,把所有的特征都压缩到一个范围内(默认的应该是[1,-1])。并不是每个样本特征的权重值。在2006年林林智仁教授的一篇文章中对于如何把libsvm和特征选择方法结合起来有了些了解。(本文的方法和图片都摘自这篇文章)1
文章中涉及到的特征选择的方法个人感觉是Embedded方法大类,除此之外还有Filter方法大类和Wrapper方法大类。文中介绍了三种方法F-scroe+SVM,F-score+RF+SVM,RF+RM-SVM。
1、F-score+SVM方法
计算F值;