特征选择常用算法

最新推荐文章于 2025-10-16 17:01:01 发布

原创

最新推荐文章于 2025-10-16 17:01:01 发布 · 1.3w 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文详细介绍了在数据预处理阶段特征选择的一些常用算法，包括过滤式、包裹式和嵌入式方法，旨在帮助读者理解如何从大量特征中挑选出对模型预测最有价值的特征，提升模型性能。

转载自:https://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html

1 综述

(1) 什么是特征选择

特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ，或属性选择( Attribute Selection ) ，是指从全部特征中选取一个特征子集，使构造出来的模型更好。

(2) 为什么要做特征选择

在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间也可能存在相互依赖，容易导致如下的后果：

- 特征个数越多，分析特征、训练模型所需的时间就越长。
- 特征个数越多，容易引起“维度灾难”，模型也会越复杂，其推广能力会下降。

特征选择能剔除不相关(irrelevant)或亢余(redundant )的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化了模型，使研究人员易于理解数据产生的过程。

2 特征选择过程

2.1 特征选择的一般过程

特征选择的一般过程可用图1表示。首先从特征全集中产生出一个特征子集，然后用评价函数对该特征子集进行评价，评价的结果与停止准则进行比较，若评价结果比停止准则好就停止，否则就继续产生下一组特征子集，继续进行特征选择。选出来的特征子集一般还要验证其有效性。

综上所述，特征选择过程一般包括产生过程，评价函数，停止准则，验证过程，这4个部分。

　　(1) 产生过程( Generation Procedure )

　　产生过程是搜索特征子集的过程，负责为评价函数提供特征子集。搜索特征子集的过程有多种，将在2.2小节展开介绍。

　　(2) 评价函数( Evaluation Function )

　　评价函数是评价一个特征子集好坏程度的一个准则。评价函数将在2.3小节展开介绍。

　　(3) 停止准则( Stopping Criterion )

　　停止准则是与评价函数相关的，一般是一个阈值，当评价函数值达到这个阈值后就可停止搜索。

　　(4) 验证过程( Validation Procedure )

　　在验证数据集上验证选出来的特征子集的有效性。

图1. 特征选择的过程 ( M. Dash and H. Liu 1997 )

2.2 产生过程

产生过程是搜索特征子空间的过程。搜索的算法分为完全搜索(Complete)，启发式搜索(Heuristic)，随机搜索(Random) 3大类，如图2所示。

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。