《统计学习方法》读书笔记-----决策树:特征选择

特征选择

特征选择就是选取对训练数据具有分类能力的特征,这样可以提高决策树学习的效率。通常特征选择的准则是信息增益或信息增益比。
1. 熵和条件熵

在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量。
X X 是一个取有限个值的离散随机变量,其概率分布为

P ( X = x i ) = p i , i = 1 , 2 , . . . , n

随机变量 X X 的熵定义为
H ( X ) = i = 1 n p i l o g p i

由于熵只依赖于 X X 的分布,与 X 的取值无关,所以可以将 X X 的熵记作 H ( p )

H(p)=i=1npilogpi H ( p ) = − ∑ i = 1 n p i l o g p i

熵越大,随机变量的不确定性越大。


设有随机变量 (X,Y) ( X , Y ) ,其联合概率分布为:

P(X=xi,Y=yi)=pij,i=1,2,...,n;j=1,2,...,m P ( X = x i , Y = y i ) = p i j , i = 1 , 2 , . . . , n ; j = 1 , 2 , . . . , m

条件熵 H(Y|X) H ( Y | X ) 表示在已知随机变量 X X 的条件下随机变量
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值