4.1_交叉熵代价函数

本文深入探讨了神经网络中常见的代价函数,包括二次代价函数、交叉熵代价函数和对数似然代价函数的工作原理及适用场景。通过分析,揭示了不同激活函数与代价函数之间的匹配关系,为神经网络训练提供了理论指导。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参数的调整目标:离目标越远,参数变化的梯度应该越大

  • 二次代价函数(quadratic cost)

c=12n[∑(y−a)2] c = \frac {1}{2n}[\sum (y-a)^2]c=2n1[(ya)2]
∂c∂w\frac{\partial c}{\partial w}wc∂c∂b\frac{\partial c}{\partial b}bc 都与σ(z)\sigma (z)σ(z)的导数正相关

  • 交叉熵代价函数(cross-entropy)

c=−1n∑x[ylna+(1−y)ln(1−a)] c = -\frac{1}{n}\sum_x[ y ln a + (1-y) ln (1-a)]c=n1x[ylna+(1y)ln(1a)]
其中,a是输出,x是样本,y是实际值
a=σ(z),z=∑wj∗xj+b,σ′(z)=σ(z)(1−σ(z)) a = \sigma(z) , z =\sum w_j*x_j +b, \sigma'(z) = \sigma(z)(1-\sigma(z))a=σ(z),z=wjxj+b,σ(z)=σ(z)(1σ(z))
则:
∂c∂wj=−1n∑x(yσ(z)−1−y1−σ(z))∂σ∂wj=1n∑xxj(σ(z)−y) \frac{\partial c}{\partial w_j}=-\frac{1}{n}\sum _x(\frac{y}{\sigma(z)}-\frac{1-y}{1-\sigma(z)})\frac{\partial \sigma}{\partial w_j}=\frac {1}{n}\sum_x x_j(\sigma(z)-y)wjc=n1x(σ(z)y1σ(z)1y)wjσ=n1xxj(σ(z)y)
∂c∂b=1n∑x(σ(z)−y) \frac{\partial c}{\partial b}=\frac{1}{n}\sum_x (\sigma(z)-y)bc=n1x(σ(z)y)
也就是说:∂c∂wj\frac{\partial c}{\partial w_j}wjc∂c∂b\frac{\partial c}{\partial b}bc只和σ(z)−y\sigma(z)-yσ(z)y有关,即误差越大,参数调整越快,符合预期的目标。

  • 对数似然代价函数(log-likelihood cost)

输出层神经元的激活函数是sigmoid函数,采用交叉熵代价函数

loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(labels=,logits=))

输出层神经元的激活函数是softmax函数,采用对数释然代价函数

loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=,logits=))

结论:

若输出神经元的激活函数是线性的,使用二次代价函数;
若输出神经元的激活函数是s型的,适合用交叉熵代价函数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值