特征选择(feature selection)

最新推荐文章于 2024-02-05 08:42:32 发布

原创最新推荐文章于 2024-02-05 08:42:32 发布 · 2.5k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

数据挖掘专栏收录该内容

12 篇文章

订阅专栏

探讨了在特征数量远大于样本数量时如何通过特征选择提高GBDT模型性能的方法，介绍了前向搜索和后向搜索两种启发式搜索方法，以及它们在实际应用中的计算复杂度。文章基于KDD Cup 2013数据集，分析了现有特征组合效果不佳的原因，提出了优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在做kdd cup 2013，特征倒是能yy出来不少，但是加到GBDT里面去效果就是不好，map反而下降了。

所以想做一个feature selection，现有的特征也不是很多，三四十个，但是全用上效果比较差。

特征选择严格来说也是模型选择中的一种。这里不去辨析他们的关系，重点说明问题。假设我们想对维度为n的样本点进行回归，然而，n可能大多以至于远远大于训练样例数m。但是我们感觉很多特征对于结果是无用的，想剔除n中的无用特征。n个特征就有种去除情况（每个特征去或者保留），如果我们枚举这些情况，然后利用交叉验证逐一考察在该情况下模型的错误率，太不现实。因此需要一些启发式搜索方法。

前向搜索：

1、初始化特征集F为空。

2、扫描i从1到n，

如果第i个特征不在F中，那么将特征i和F放在一起作为（即）

在只使用中特征的情况下，利用交叉验证来得到的错误率。

3、从上步中得到的n个中选出错误率最小的，更新F为。

如果F中的特征数达到了n或者预设定的阈值（如果有的话），那么输出整个搜索过程中最好的F，没达到转到2

前向搜索属于wrapper model feature selection。Wrapper这里指不断地使用不同的特征集来测试学习算法。前向搜索说白了就是每次增量地从剩余未选中的特征选出一个加入特征集中，待达到阈值或者n时，从所有的F中选出错误率最小的。

既然有增量加，那么也会有增量减，后者称为后向搜索。先将F设置为{1,2,..,n}，然后每次删除一个特征，并评价，直到达到阈值或者为空，然后选择最佳的F。

这两种算法都可以工作，但是计算复杂度比较大。时间复杂度为。

我是按这样的框架实现，由于训练一次模型的时间比较长，O(n^2)的复杂度也只能让我的feature selection的程序慢慢跑了

参考资料：

http://www.cnblogs.com/jerrylead/archive/2011/03/27/1996799.html

博客等级

码龄16年

6
原创

10
点赞

3
收藏

23
粉丝

关注

私信

热门文章

分类专栏

Java 1篇
数据挖掘 12篇
httpclient 1篇
新浪微博 1篇
Image Process 1篇
C# 2篇
数据jie
数据结构 3篇

展开全部收起

上一篇：: C#文件读写相关技术介绍

下一篇：: 连续子数组求和

最新评论

Kdd Cup 2013 track1总结
qq_27402459: 你好，我现在在做这个paper-author系统，可以请问一下跑这个系统电脑配置有什么要求吗？我现在的程序总是出现segmentation fault（core dumped）错误，查了很多方法，还是解决不了
httpclient登录新浪微博手机版Weibo.cn
hi_simida: 为什么没有测试需要验证码的情况
Kdd Cup 2013 track1总结
novblade: 楼主您好！我是小白，本科软件工程专业大二，刚刚接触数据挖掘两个月，对数据挖掘和机器学习非常感兴趣，想参加明年的KDD CUP的比赛锻炼一下，楼主能不能在这里指点一下呢？
httpclient登录新浪微博手机版Weibo.cn
e241138: 引用「String content = Get(LoginUrl); 中的Get(LoginUrl)代码...」 Get(LoginUrl)就是解析Url为Dom然后toString的过程。我已用楼主的方法登录成功。注意，登录页面的代码可能会变化，要根据实际情况稍微修改下代码，主要就是获取password的name和vk的值。
httpclient登录新浪微博手机版Weibo.cn
xxgo2: 跟我想的想的一样我怎么登陆不了呢，我是VB写的，lz的有个ID是不是叫做伟大娃娃？？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。