子集搜索与评价
相关特征和无关特征,冗余特征。进行特征选择是一种数据预处理(data preprocessing)
如何进行特征选择,三种思考方式,
- 从全部特征逐个去除,直到无法得更好的特征为止,这种方式称为后向搜索;
- 选取一个特征子集,然后逐个增加特征,直到无法获得更好的特征子集,这种方式称之为前向搜索。
- 还可以将前向和后向结合起来,每一轮逐渐减少增加选定的相关特征(这些特征在后续轮中将确定不会被去除),同时减少无关特征,这种策略被称为双向操作。
但是上述这种顺序选择最优属性,显然不一定是最好的。因此我们要经过子集评价。
我们可以根绝决策树里面的判断属性优劣的策略。我们可以通过信息增益作为子集评价标准。
通过特征子集搜索机制和子集评价机制相结合,可以得到特征选择方式。
常见的特征选择方法分为三类:
过滤式(filter)、包裹式(wrapper)、嵌入式(embedding)
过滤式
Relief是一种著名的过滤式特征选择方式。该方法通过相关统计量来度量特征的重要性。
什么是相关统计量,该统计量是一个分量,每个分量对应于一个初始化特征,而特则会那个特征的子集的重要性则是由子集中每个特征所对应的相关统计量分量只和决定的。
将猜对近邻和猜对近邻相加,计算香瓜统计量对应某个属性的分量。
Relief是一个二分类的问题,其扩展变体是Relief-F能处理多分类问题。
包裹式
由于过滤式特征选择不考虑后续学习器的不同,包裹式特征选择直接把最终将要使用的而学习器的性能作为特征子集的评价标准。
LVW(Las Vegas Wrapper) 是一个典型