交叉熵损失函数 熵最小化进行标签预测

这篇博客探讨了交叉熵损失函数在深度学习中的应用,包括相对熵(KL散度)和信息熵的概念。文章解释了交叉熵作为衡量两个概率分布差异的指标,以及在PyTorch中的实现方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2021SC@SDUSC

相对熵

相对熵又称KL散度,用来描述两个概率分布的差异性。假设有对同一变量 x 的 q(x)和p(x)两个概率分布,那么两者之间的相对熵可由以下定义

 q(x)是预测的匹配分布,p(x)是目标分布,显然,目标分布p(x)表示事件,但因为使用预测分布,所以有了信息量的变化,这种变化叫相对熵。

信息熵

信息熵也被称为熵,用来表示所有信息量的期望。

所以信息量的熵可表示为如下公式:(X是一个离散型随机变量)

交叉熵

交叉熵是用来估算平均编码长度的。在深度学习中,可以看作通过概率分布q(x)表示概率分布p(x)的困难程度。其表达式为:

KL散度=交叉熵-信息熵 

在TensorFlow中实现交叉熵

cross_entropy = -tf.reduce_mean( y_ * tf.log(tf.clip.by_value(y, 1e-10, 1.0)))
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值