机器学习中的信息论

熵和信息量

假设我们有一组离散的符号集{v1,v2,...vm}{v1,v2,...vm},每个符号具有相应的出现概率PiPi。为了衡量这组符号组成序列的随机性,定义离散分布的熵为:

H=i=1mPilog2Pi(1)(1)H=−∑i=1mPilog2Pi

其中定义0log0=00log0=0。其中对数的底数为2,这时候熵的单位为“比特”。熵是刻画这些符号不确定性的量。熵的值并不依赖于符号本身,而是依赖于符号出现的概率。给定m个符号,当这些符号出现的概率相同时,对应的熵最大。此时的熵:
H=i=1m1mlog21m=log21m=log2m(2)(2)H=−∑i=1m1mlog21m=−log21m=log2m

对于连续的情况:
H=+p(x)lnp(x)dx(3)(3)H=−∫−∞+∞p(x)lnp(x)dx

在所有的连续概率密度函数中,如果均值μμ和方差σ2σ2都是固定的,则使熵达到最大值的是高斯分布。
高斯分布的概率密度函数为:
p(x)=12πσexp((xμ)22σ2)(4)(4)p(x)=12πσexp(−(x−μ)22σ2)

求高斯分布的熵:
H=+p(x)lnp(x)dx=0.5+log2(2πσ)(5)(6)(5)H=−∫−∞+∞p(x)lnp(x)dx(6)=0.5+log2(2πσ)

对于离散随机变量xx和任意函数f(),都有H(f(x))H(x)H(f(x))≤H(x)。换而言之,对于信号的任何处理都不会增加熵。特别的当f(x)f(x)是一个常数值函数时,则熵变为0。这个性质对于连续行的随机变量是不成立的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值