1、机器学习基础知识——信息论相关

本文深入探讨了信息论的基本概念,包括熵、相对熵(KL散度)和交叉熵的定义与应用。熵衡量了随机变量的不确定性,相对熵描述了两个概率分布间的差异,而交叉熵则用于评估预测分布与真实分布的相似性。这些概念在机器学习和深度学习中扮演着关键角色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、随机变量的熵:

对于离散随机变量\large x_{i}\epsilon x服从\small P(x_{i}),其概率为\small P(x_{i}),其熵定义为Entropy(x):

Entropy(x) =- \sum_{i=1}^{N}P(x_{i})*logP(x_{i})

1注

       (1)、熵用来表达所有信息量的期望;

       (2)、信息熵越大,包含的信息就越多,那么随机变量的不确定性就越大。

2、连续变量的熵:

对于连续变量x服从P(x)概率分布,其熵定义为Entropy(x):

\small Entropy(x)=-\int _{x}P(x)logP(x)dx

3、随机变量的相对熵

3.1、离散概率分布的相对熵(KL散度):

\small KL(p||q)=\sum p(x)log(p(x)/q(x))

3.1、连续概率分布的相对熵(KL散度):

\small KL(p||q)=\int p(x)log(p(x)/q(x))dx

 

3注:

         (1)、散度可以描述2个概率分布的差异,即是两个分布之间的距离,两个分布越接近,KL散度值就越小;反之,如果越远,KL散度值就越大。

         (2)、KL散度的值是非负的,即\small KL\geq 0

4、交叉熵

4.1、离散分布的交叉熵:

\small H(p,q)=- \sum_{i=1}^{N}p(x_{i})logq(x_{i})

4.2、连续分布的交叉熵:

\small \small H(p,q)=- \int _{x} p(x_{i})log[q(x_{i})]dx

 

交叉熵的由来:因为散度

\small KL(p||q)=\sum p(x)log(p(x)/q(x))=\sum[p(x)logp(x)-p(x)logq(x)]

又因为p(x)logp(x)不变,所以:

\small KL(p||q)=H(x)-\sum p(x)logq(x)

 

于是:交叉熵定义为 -∑p(x)log[q(x)]。


参考:

[1].深入浅出深度学习——原理剖析于Python实践,黄安阜

[2].机器学习,周志华

[3].统计学习方法,李航

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值