神经网络的误差最小化与多种网络模型解析
1. L1误差最小化
在神经网络的研究中,我们常常关注如何让模型达到更好的性能,其中误差最小化是一个关键的方向。之前,我们通过经验风险最小化的方法,实现了标准阈值Sigmoid网络的一致性。然而,对于一般的Sigmoid网络,由于其VC维是无界的,不能直接使用相同的方法。不过,对于某些特定类别的Sigmoid函数,其VC维是有界的,此时经验风险最小化能够产生通用一致的分类器。即便VC维是无限的,我们也可以通过其他方法,如基于度量熵和覆盖数的方法来证明一致性。
在本节中,我们采用最小化另一个经验准则的方式来训练分类器,从而得到适用于所有Sigmoid函数的通用一致性定理。对于1 ≤ p < ∞,神经网络ψ的经验Lp误差定义为:在p = 1和p = 2的情况下尤为有趣,p = 2时是经验平方误差,p = 1时则是经验绝对误差。通常,尝试选择网络ψ的参数以最小化 是有意义的。在一些场景中,我们不仅关注错误的数量,还关注决策的稳健性,这样的误差度量就很有价值。实际上,这些误差度量甚至会对接近阈值0的良好决策进行惩罚。最小化 类似于寻找一个好的回归函数估计。我们主要关心的是误差概率,之前我们已经强调过平方误差最小化和一般Lp误差的风险,这里我们着重关注一致性属性。
我们在一类函数上最小化经验误差,这个函数类不能太大,以避免过拟合,但又要足够大,以包含目标函数的良好近似。因此,我们让候选函数类随着样本大小n增长,就像Grenander的“筛法”一样。其一致性和收敛速度在最小二乘回归函数估计和非参数最大似然密度估计中得到了广泛研究。
我们只考虑p = 1的情况,因为推广到其他p值很直接。定义函数ψ : Rd → R的L1误差为J
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



