数据特征选择方法:从基础到实践
1. 特征选择的挑战
在数据预测中,单个特征的价值评估往往具有局限性。例如,特征 1 和特征 2 单独来看,对预测目标结果几乎没有价值。从定量角度,这两个特征与目标结果之间的相关性非常弱。简单的特征选择算法仅考察单个特征与结果的关系,可能会判定这两个特征对预测无用。而且,由于这两个特征之间的相关性约为 0.90,更复杂的特征选择算法可能会因看似冗余而无意中排除其中一个。
然而,散点图清晰地表明,当这两个特征一起使用时具有预测能力:如果特征 2 大于特征 1,则预测为三角形;否则,预测为圆形。这说明一个有用的特征选择方法应该能够识别这类模式,否则可能会将重要的预测因子排除在学习算法之外。同时,特征选择技术还需要考虑计算效率,因为除了最小的数据集外,检查每个特征的潜在组合是不可行的。
由于需要在寻找有用、非冗余特征与特征可能仅在组合使用时才有用之间取得平衡,因此没有一种适用于所有情况的特征选择方法。根据不同的用例和所选的学习算法,可以应用不同的技术来对特征进行不太严格或更彻底的搜索。
2. 过滤方法(Filter Methods)
过滤方法是最容易实现的特征选择类别,它使用相对简单的评分函数来衡量每个特征的重要性。得到的分数可用于对特征进行排名,并限制预测模型中使用的特征数量。由于这种方法简单,过滤方法通常作为数据探索、特征工程和模型构建迭代过程的第一步。可以先应用一个粗略的过滤器来确定最值得深入探索和可视化的候选特征,如果需要进一步减少特征数量,再应用更严格的特征选择方法。
过滤方法的一个显著特点是使用特征重要性的代理度量。由于在构建预测模型之前无法知道特征的真实预测能力,所以选择一个更
特征选择方法详解与实践
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



