特征选择,熵,条件熵,信息增益

特征选择是提高分类器效率的关键,常用准则有信息增益。通过熵和条件熵来衡量数据的不确定性。信息增益表示特征带来的信息不确定性减少,用于决策树中选择最佳划分特征。举例说明了如何依据信息增益选择特征。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

特征选择,熵,条件熵,信息增益

特征选择

特征选择是在于选取能够提高分类器学习效率的特征。对于没有分类能力的特征,经验上扔掉这样的特征对最终的分类结果并没有什么大影响。
通常特征选择的准则是信息增益或信息增益比

例子

在这里插入图片描述
上表是有15个样本组成的贷款申请训练数据,数据包含贷款申请人的4个特征(年龄,是否有工作, 是否有自己的房子,信贷情况),最后一列是类别。特征选择是决定用哪个特征来划分特征空间,选择哪个特征作为根节点,可能的情况:
在这里插入图片描述
直观上,如果一个特征具有更好的分类能力,或者说按照这一特征将训练数据集分割成子集,使得各个子集在当前条件下有最好的分类,那么就更应该选择这个特征,信息增益就能够很好的表示这一直观的准则。

信息论中,熵表示信息的不确定性,设 X X X是一个取有限个值的离散随机变量,其概率分部是:
P ( X = x i ) = p i , ( i = 1 , 2 , . . . n ) P(X = x_i)=p_i,(i=1, 2, ...n) P(X=xi)=pi,(i=1,2,...n)
熵就是 H ( X ) = − ∑ i = 1 n p i l o g p i H(X)=-\sum_{i=1}^np_ilogp_i H(X)=<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值