神经网络的统计设计技术
1. 引言
在神经网络设计中,选择合适的模型和优化训练样本是至关重要的。本文将探讨如何在已确定模型集合的条件下,选择最优模型和优化训练样本。
2. 最速下降的信息准则
2.1 模型大小的选择
设计神经网络时,需确定合适的模型大小。若模型过小,无法近似真实概率密度函数;若模型过大,则会学习训练样本中的噪声。为实现最优模型选择,统计学和信息理论中提出了一些信息准则,如赤池信息准则(AIC)、贝叶斯信息准则(BIC)和最小描述长度(MDL)。但这些准则需要模型族中所有模型的最大似然估计。
2.2 修剪模型
设 $p(y|x; w)$ 是一个足够大的神经网络实现的条件概率密度函数,其中 $w = (w_1, w_2, …, w_{P_{max}})$ 是参数($P_{max}$ 是参数数量),该神经网络模型记为 $S_{max}$。通过将某些参数设为 0,可从 $S_{max}$ 得到 $2^{P_{max}}$ 个不同的模型,这些模型称为修剪模型,因为相应的权重参数被消除了。设 $S$ 是所有修剪模型的集合。
2.3 经验误差和预测误差
给定属于 $S$ 的神经网络 $p(y|x, w)$ 和训练样本 ${(x_i, y_i); i = 1, 2, 3, …, n}$,使用 $n$ 个训练样本的经验误差 $L_2(w)$,为简便起见,用 $L(w)$ 代替 $L_2(w)$:
[L(w) = \frac{1}{n} \sum_{i=1}^{n} \log p(y_i | x_i; w)]
并定义预测误差:
[\hat{
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



