西瓜书_chapter11_特征选择与稀疏学习

本文介绍了特征选择中的子集搜索与评价策略,包括过滤式、包裹式和嵌入式选择。重点讲解了L1正则化在嵌入式选择中的作用,以及稀疏表示和字典学习在数据压缩和表示中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

11.1 子集搜索与评价

如果我们想从特征集合中选区一个包含了所有重要信息的特征子集,如果我们没有任何先验知识,那么就只能遍历可能的子集,这会带来很高的计算复杂度;可行的一种做法是先产生一个“候选子集",评价它的好坏,然后在此基础之上产生下一个子集。这里涉及到两个关键环节,一是如何根据评价结果选择下一个候选子集,二是如何评价子集的好坏。
第一个环节是子集搜索,给定特征集合 { a 1 , a 2 , . . . , a d } \{a_1,a_2,...,a_d\} { a1,a2,...,ad},我们可以将每个特征看作一个候选子集,对这 d d d个候选单特征子集进行评定,假如 { a 2 } \{a_2\} { a2}最优,那么我们就把 { a 2 } \{a_2\} { a2}作为第一轮的选定集;然后,在上一轮选定集中加入一个特征,构成两个特征的候选子集,我们假定 { a 2 , a 4 } \{a_2,a_4\} { a2,a4}最优且优于 { a 2 } \{a_2\} { a2},那么我们就得到了新的候选子集,以此类推。这是一种前向搜索。我们也可以从完整的属性集合开始,每次去掉一个无关的特征,这样的方法叫后向搜索。#这个和决策树的生成很像。
显然,这个策略是贪心的。
第二个环节是子集评价,给定数据集 D D D,我们可以计算属性子集的信息增益
G a i n ( A ) = E n t ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t ( D v ) Gain(A)=Ent(D)-\sum_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v) Gain(A)=Ent(D)v=1VDDvEnt(Dv)
更一般地,特征子集 A A A实际上确定了对数据集 D D D的一个划分,而样本标记信息 Y Y Y也对应着 D D D的真实划分,我们对两个划分进行对比,也能对 A A A进行评价。
常见的特征选择方法大体上分为三类:过滤式、包裹式、嵌入式

11.2 过滤式选择

过滤式方法先对数据集进行特征选择,然后训练学习器,特征选择过程与后续学习器无关。这相当于先用特征选择过程对初始特征进行过滤,再用过滤后的特征来训练模型。
Relief是一种著名的过滤式选择方法,我们先来描述这个算法工作流程,我们先定义一个向量 δ \delta δ。给出训练集 { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } \{(\mathbf{x_1},y_1),(\mathbf x_2,y_2),...,(\mathbf x_m,y_m)\} { (x1,y1),(x2,y2),...,(xm,ym)},对每个示例 x i \mathbf x_i xi,Relief先在 x i \mathbf x_i xi的同类样本中寻找其最近邻 x i , n h \mathbf x_{i,nh} xi,nh,称为猜中近邻;再从它的异类样本中寻找最近邻 x i , n m \mathbf x_{i,nm} xi,nm,称为猜错近邻,对于属性 j j j
δ j = ∑ i − d i f f 2 ( x i j , x i , n h j ) + d i f f 2 ( x i j , x i , n m j ) \delta^j=\sum_{i} -diff^2(\mathbf x_i^j,\mathbf x_{i,nh}^j)+diff^2(\mathbf x_i^j,\mathbf x_{i,nm}^j) δj=idiff2(xij,xi,nhj)+diff2(xij,xi,nmj)
其中 d i f f diff diff的体现了两个样本对应属性的差异性,对于离散属性,我们可以取0/1,对连续属性,我们可以作差取绝对值。我们可以看到,如果同类样本越近,异类样本越远,向量对应位置的值的增益越大,也就是这个属性对分类越有用。#最后,通常要对上式进行平均。
扩展到多分类问题,
δ j = ∑ i − d i f f 2 ( x i j , x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值