机器学习西瓜书——(第十一章)特征选择与稀疏表示

本文探讨了机器学习中的特征选择方法,包括过滤式、包裹式和嵌入式选择。过滤式以相关统计量衡量特征重要性,如Relief;包裹式则直接以学习器性能为评价标准,如LVW;嵌入式选择中,L1正则化在训练过程自动完成特征选择。此外,文章还讨论了稀疏表示、字典学习以及压缩感知在信号处理中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

子集搜索与评价

相关特征和无关特征,冗余特征。进行特征选择是一种数据预处理(data preprocessing)

如何进行特征选择,三种思考方式,

  1. 从全部特征逐个去除,直到无法得更好的特征为止,这种方式称为后向搜索;
  2. 选取一个特征子集,然后逐个增加特征,直到无法获得更好的特征子集,这种方式称之为前向搜索。
  3. 还可以将前向和后向结合起来,每一轮逐渐减少增加选定的相关特征(这些特征在后续轮中将确定不会被去除),同时减少无关特征,这种策略被称为双向操作。

但是上述这种顺序选择最优属性,显然不一定是最好的。因此我们要经过子集评价
我们可以根绝决策树里面的判断属性优劣的策略。我们可以通过信息增益作为子集评价标准。

通过特征子集搜索机制和子集评价机制相结合,可以得到特征选择方式。
常见的特征选择方法分为三类:
过滤式(filter)、包裹式(wrapper)、嵌入式(embedding)

过滤式

Relief是一种著名的过滤式特征选择方式。该方法通过相关统计量来度量特征的重要性。
什么是相关统计量,该统计量是一个分量,每个分量对应于一个初始化特征,而特则会那个特征的子集的重要性则是由子集中每个特征所对应的相关统计量分量只和决定的。
猜对近邻猜对近邻相加,计算香瓜统计量对应某个属性的分量。

Relief是一个二分类的问题,其扩展变体是Relief-F能处理多分类问题。

包裹式

由于过滤式特征选择不考虑后续学习器的不同,包裹式特征选择直接把最终将要使用的而学习器的性能作为特征子集的评价标准。

LVW(Las Vegas Wrapper) 是一个典型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值