你知道吗,最小二乘法不宜用于分类模型的损失函数?

本文探讨了简单分类模型中损失函数的设计对训练效率的影响。通过分析一个二分类单层网络的例子,指出直观但低效的损失函数会导致训练过程缓慢。进一步,通过数学方法对比了L1和L2损失函数,并解释了为什么某些损失函数会降低训练速度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

损失函数是神经网络模型构建的关键一步。基于模型预测结果和训练样本之间的距离,构建损失函数,是一个非常容易理解的方法。但是,用于分类模型的训练中,容易导致效率低下的问题。具体原因你知道吗?您知道如何避免出现类似问题吗?

1. 简单的分类模型

下面是一个只有一个输入节点和一个输出节点的二分类单层网络:
y(x,w)=σ(x+w)(1)\tag1 y(x,w)=\sigma(x+w) y(x,w)=σ(x+w)(1)
其中,σ(∗)\sigma(*)σ() 是 sigmoid 函数。

那么,如果通过训练确定 w 的最佳值呢?

2.简单的训练样本

训练样本只有两个数据:

xix_ixiyiy_iyi
-10
11

3. 构建最简单的损失函数——直观,但是低效

显而易见,可以依据目标导向的原则,构建损失函数:
L1(w)=∣y(x1,w)−y1∣+∣y(x2,w)−y2∣(2)\tag2 L1(w) = |y(x_1,w)-y_1| + |y(x_2,w)-y_2| L1(w)=y(x1,w)y1+y(x2,w)y2(2)

我们假设模型初始状态为 w=10w = 10w=10 ,此时近似地,

y(x1,w)=y(−1,10)=σ(−1+10)≃1y(x2,w)=y(1,10)=σ(1+10)≃1(3)\tag3 \begin{matrix} y(x_1,w)=y(-1,10) = \sigma(-1+10)\simeq 1\\ y(x_2,w) =y(1,10) = \sigma(1+10)\simeq 1 \end{matrix} y(x1,w)=y(1,10)=σ(1+10)1y(x2,w)=y(1,10)=σ(1+10)1(3)
我们发现训练样本中的 xix_ixi 分布在一个“平坦”区域,无论 www 减小还是增加,损失函数变化都很微小。因此,我们无法判断是出于一个低谷的底部,还是处于山峰的顶部。为了谨慎,只能小步子变化试探 www 的变化方向,这极大地影响了训练过程的速度。

接下来我们用最小二乘法构建一个性能和 L1(w)L1(w)L1(w) 类似的损失函数,用数学方法做进一步分析。数学不好的可以跳过去这一部分。

4. 用数学方法分析一下

基于最小二乘法,构造一个损失函数
L2(w)=12{[σ(x1+w)−y1]2+[σ(x2+w)−y2]2}(2)\tag2 L2(w) = \frac12\{[\sigma(x_1+w)-y_1]^2+[\sigma(x_2+w)-y_2]^2\} L2(w)=21{[σ(x1+w)y1]2+[σ(x2+w)y2]2}(2)
看上去一切都好,但是如何把 www 求出来呢?看我们继续分析。

把训练样本代入(2),简化得到,
L2(w)=12{[σ(w−1)]2+[σ(w+1)−1]2}(3)\tag3 L2(w) = \frac12\{[\sigma(w-1)]^2+[\sigma(w+1)-1]^2\} L2(w)=21{[σ(w1)]2+[σ(w+1)1]2}(3)
为了利用梯度下降法迭代求 www 的最佳值,我们对(3)式求导,
∂L2(w)∂w=σ(w−1)∂σ(w−1)∂w+[σ(w+1)−1]∂σ(w+1)∂w(4)\tag4 \frac{\partial L2(w)}{\partial w } = \sigma(w-1) \frac{\partial \sigma(w-1)}{\partial w}+[\sigma(w+1) - 1]\frac{\partial \sigma(w+1)}{\partial w} wL2(w)=σ(w1)wσ(w1)+[σ(w+1)1]wσ(w+1)(4)

现在问题来了。我们知道,本题中 www 的最优解为 w=0w=0w=0。如果 www 的初始值很大或很小,例如 w=−10w=-10w=10w=10w = 10w=10σ(∗)\sigma(*)σ() 的图像非常平坦,其导数接近 0。这导致一个很不正常的结果:

www 距离最佳位置越远,(4) 式的值就越小,因此梯度下降得就越慢。

这个特点极大地增加了训练过程所需的时间,效率极低。因此我们需要构建更有效的损失函数,请继续关注本博客后续文章。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

许野平

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值