特征选择是一种及其重要的数据预处理方法。假设你需要处理一个监督学习问题,样本的特征数非常大(甚至 ),但是可能仅仅有少部分特征会和对结果产生影响。甚至是简单的线性分类,如果样本特征数超过了n,但假设函数的VC维确仍然是O(n),那么,除非大大扩展训练集的数量,否则即会带来过拟合的问题。在这样的情况下,可以使用特征选择算法降低特征的数量。
假设样本有n个特征,那么,其有种可能的特征子集,如果特征选择需要去穷举所有
种可能的特征子集,对于n比较大的情况,计算的代价太大,无法真正实现。因此可以通过一些启发式算法实现特征的选择。
正向搜索/反向搜索(forward/backwardsearch)
正向搜索的基本思想是:依次在当前集合中加入一个其没有的属性,然后用交叉验证等方法对新的集合进行评估,找出评估结果最佳的属性加入当前集合。不断