机器学习西瓜书——（第十一章）特征选择与稀疏表示

飞呀飞呀飞呀

于 2020-04-10 19:37:24 发布

阅读量741

点赞数

CC 4.0 BY-SA版权

文章标签：机器学习 python 深度学习人工智能大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/yin_fei_0825/article/details/105436033

本文探讨了机器学习中的特征选择方法，包括过滤式、包裹式和嵌入式选择。过滤式以相关统计量衡量特征重要性，如Relief；包裹式则直接以学习器性能为评价标准，如LVW；嵌入式选择中，L1正则化在训练过程自动完成特征选择。此外，文章还讨论了稀疏表示、字典学习以及压缩感知在信号处理中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习西瓜书——特征选择与稀疏表示

子集搜索与评价

子集搜索与评价

相关特征和无关特征，冗余特征。进行特征选择是一种数据预处理（data preprocessing）

如何进行特征选择，三种思考方式，

从全部特征逐个去除，直到无法得更好的特征为止，这种方式称为后向搜索；
选取一个特征子集，然后逐个增加特征，直到无法获得更好的特征子集，这种方式称之为前向搜索。
还可以将前向和后向结合起来，每一轮逐渐减少增加选定的相关特征（这些特征在后续轮中将确定不会被去除），同时减少无关特征，这种策略被称为双向操作。

但是上述这种顺序选择最优属性，显然不一定是最好的。因此我们要经过子集评价。
我们可以根绝决策树里面的判断属性优劣的策略。我们可以通过信息增益作为子集评价标准。

通过特征子集搜索机制和子集评价机制相结合，可以得到特征选择方式。
常见的特征选择方法分为三类：
过滤式（filter）、包裹式（wrapper）、嵌入式（embedding）

过滤式

Relief是一种著名的过滤式特征选择方式。该方法通过相关统计量来度量特征的重要性。
什么是相关统计量，该统计量是一个分量，每个分量对应于一个初始化特征，而特则会那个特征的子集的重要性则是由子集中每个特征所对应的相关统计量分量只和决定的。
将猜对近邻和猜对近邻相加，计算香瓜统计量对应某个属性的分量。

Relief是一个二分类的问题，其扩展变体是Relief-F能处理多分类问题。

包裹式

由于过滤式特征选择不考虑后续学习器的不同，包裹式特征选择直接把最终将要使用的而学习器的性能作为特征子集的评价标准。

LVW(Las Vegas Wrapper) 是一个典型

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。