机器学习：神经网络代价函数总结

最新推荐文章于 2024-08-03 02:20:31 发布

SanFanCSgo

最新推荐文章于 2024-08-03 02:20:31 发布

阅读量9.3k

点赞数 6

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习神经网络代价函数交叉熵代价函数对数似然代价函数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_40170902/article/details/80032669

本文详细介绍了神经网络中的三种主要代价函数：二次代价函数、交叉熵代价函数和对数似然函数代价函数。针对每种函数，文章阐述了其定义、计算方式以及在不同激活函数下的表现，强调了它们在优化过程中的作用和适用场景。特别是，二次代价函数在sigmoid激活函数下可能存在训练速度慢的问题，而交叉熵和对数似然函数在S型和softmax激活函数下能有效提升训练效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

神经网络代价函数

1. 代价函数基本定义

代价函数是衡量模型预测输出值与目标真实值之间差距的一类函数，在一些场景中也称为目标函数。
在神经网络中，代价函数(如二次误差函数)衡量输出值与真实值之间的误差，以此进行误差反向传递，不断调整网络中权值和阈值，从而使得预测值和真实值之间的差距越来越小。
一些常用的代价函数主要有：二次代价函数、交叉熵代价函数以及对数似然函数等等。

2. 二次代价函数

定义

考虑 $n$ 个样本的输入 $z_1, z_2, ...z_n$ ，对应的真实值为 $y_1, y_2,..., y_n$ ，对应的输出为 $o(z_i)$ ，则二次代价函数可定义为：

C = 1 2 n \sum i = 1 n | | y i - o (z i) | | 2

$C=\frac{1}{2n}\sum_{i=1} ^n||y_i - o(z_i)||^2$
其中，

C C $C$ 表示代价函数，

n

$n$ 表示样本总数。

以一个样本为例

假设在神经网络中，上一层每个神经元的输出为 $x_j$ ，权值为 $w_j$ ，偏置值为 $b$ 。当前输出神经元的激活函数为 $\sigma(\cdot)$ 。则该神经元的输入值为 $z=\sum w_jx_j +b$ ，此时二次代价函数为：

C = ( y - σ ( z ) ) 2 2

$C=\frac{(y-\sigma(z))^2}{2}$
其中，

y y $y$ 为真实值。

考虑权值和偏置值更新

假如使用梯度下降法(Gradient descent)来调整权值和偏置值大小，则对 $w$ 和 $b$ 求偏导得：

\begin{aligned} \frac{\partial C}{\partial w} = (σ (z) - y) σ^{'} (z) x \\ \frac{\partial C}{\partial w} = (σ (z) - y) σ^{'} (z) \end{aligned}

$\begin{aligned}& \frac{\partial C}{\partial w}=(\sigma(z) -y)\sigma'(z)x \\& \frac{\partial C}{\partial w}=(\sigma(z) -y)\sigma'(z) \end{aligned}$
该偏导数乘以学习率

l l $l$ 就变成了每次调整权值和偏置值得步长。当

l

$l$ 一定时，可以看出

w w $w$ 和

b

$b$ 的梯度跟激活函数的梯度成正比，激活函数的梯度（导数）越大，则

w w $w$ 和

b

$b$ 调整得就越快，训练收敛得就越快。

结合激活函数

假设神经元使用的激活函数为sigmoid函数，如下图所示：

这里写图片描述

考虑 $A$ 点和 $B$ 点，权值调整大小与sigmoid函数的梯度（导数）有关。
当真实值 $y=1$ 时，则输出值目标是收敛至 $1$ 。 $A$ 离目标比较远，权值调整大； $B$ 离目标比较近，权值调整小。调整方案合理。
当真实值 $y=0$ 时，则输出值目标是收敛至 $0$ 。 $A$ 离目标比较近，权值调整大； $B$ 离目标比较远，权值调整小。调整方案不合理。换句话说，很难调整到目标值 $0$ 。
结论

可以看出，二次代价函数在使用sigmoid或tanh的s型激活函数时，在收敛至 $0$ 时，存在收敛速度慢而导致的训练速度慢的问题。

2. 交叉熵代价函数

交叉熵

在分析交叉熵代价函数函数之前，先来了解一下交叉熵的概念。

首先引入信息熵，给定一个随机变量 $X={x_1, x_2, ...,x_n}$ ，对应的概率分布为 $p_1, p_2,...p_n$ ，则信息熵就是用来衡量随机变量的不确定性大小，定义为：

H (X) = \sum i = 1 n p i log 2 1 p i

$H(X)=\sum_{i=1}^n p_i \log_2\frac{1}{p_i}$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。