机器学习---特征选择与稀疏学习

本文详细介绍了特征选择在机器学习中的重要性,包括子集搜索策略(如前向、后向和双向搜索)、子集评价方法(如信息熵),并探讨了过滤式、包裹式和嵌入式特征选择方法,以及Relief、ReliefF、LVW等具体算法。此外,文中还涵盖了压缩感知和稀疏表示的概念,以及如何通过字典学习将非稀疏数据转化为稀疏表示以提升学习效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 特征

特征:描述物体的属性。

特征的分类:相关特征: 对当前学习任务有用的属性;无关特征: 与当前学习任务无关的属性

 特征选择:从给定的特征集合中选出任务相关特征子集;必须确保不丢失重要特征。 

原因:减轻维度灾难:在少量属性上构建模型;降低学习难度:留下关键信息

特征选择的一般方法:遍历所有可能的子集;计算上遭遇组合爆炸,不可行。

可行方法:

两个关键环节:子集搜索和子集评价。若要从初始的特征集合中选取一个包含了所有重要信息的特

征子集,如果没有任何领域知识作为先验假设,那就只好遍历所有可能的子集了。然而,这在计算

上是不可行的,因为这样做会遭遇组合爆炸,特征个数稍多,就无法进行。

1.1 子集搜索

用贪心策略选择包含重要信息的特征子集;前向搜索:最优子集初始为空集,逐渐增加相关特征

后向搜索:从完整的特征集合开始,逐渐减少特征;双向搜索:每一轮逐渐增加相关特征,同时减

少无关特征。特征选择的第一个环节,是“子集搜索”问题,通常我们选择用贪心策略选择包含重要

信息的特征子集。即,仅考虑了本轮选定的特征集合是最优的。

1.2 子集评价

特征子集A 确定了对数据集D的一个划分:每个划分区域对应着特征子集A的某种取值。样本标记Y

对应着对数据集的真实划分。通过估算这两个划分的差异,就能对特征子集进行评价;与样本标记

对应的划分的差异越小,则说明当前特征子集越好。信息熵是判断这种差异的一种方式:

特征选择的第二个环节,是“子集评价”问题,对于特征子集 A 确定了对 数据集 D 的一个划分,每

划分区域对应着特征子集 A 的某种取值,样本标记信息 Y 对应着对数据集 D 的真实划分。通过

估算这两个划分的差异,就能对特征子集 A 进行评价;与 样本标记 Y 对应的划分的差异越小,则

说明当前特征子集 A 越好。我们可以选择信息熵来判断这种差异。

2. 常见的特征选择方法

将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法。

2.1 过滤式

先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。先用特征选择过

程过滤原始数据,再用过滤后的特征来训练模型。

Relief (Relevant Features) 方法是一种著名的过滤式特征选择方法。Relief算法最早由Kira提出,

最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Feature weighting algorithms),

根据各个特征和类别的相关性赋予特征不同的权重(相关统计量),权重小于某个阈值的特征将被

移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。Relief的关键是如何

确定权重(相关统计量)?

Relief算法从训练集D中随机选择一个样本 𝒙𝑖 然后从和 𝒙𝑖 同类的样本中寻找最近邻样本,称为

猜中近邻near-hit);从和 𝒙𝑖 不同类的样本中寻找最近邻样本,称为猜错近邻near-miss),

然后根据以下规则更新每个特征的权重:如果 𝒙𝑖 猜中近邻某个特征上的距离小于 𝒙𝑖 猜错近

的距离,则说明该特征对区分同类和不同类的最近邻是有益的,则增加该特征的权重;反之,

如果 𝒙𝑖 猜中近邻某个特征的距离大于 𝒙𝑖 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值