多层网络与循环网络:架构优化与学习算法解析
多层网络训练与泛化
在多层网络中,对于一个 N 输入的感知机,为了使某个界限小于一个小的数 $\epsilon$,在大 N 和大 p 的极限情况下,所需的训练示例数量 p 需满足 $p > \frac{8N \log(N)}{\epsilon^2}$。这表明在最坏情况下,训练所需的示例数量与 $N \log N$ 成比例增长。虽然相较于 $2^N$ 种可能的示例,这个增长速度似乎还可以接受,但系数 $\frac{8}{\epsilon^2}$ 对于较小的 $\epsilon$ 会降低人们的积极性。
对于一个具有 M 个阈值节点和 W 个权重(包括阈值)的一般前馈网络,Baum 和 Haussler 计算出其 VC 维的上界为 $d_{VC} < 2W \log_2(eM)$,其中 $e$ 是自然对数的底数。由此他们推导出获得良好泛化概率所需的训练集大小 p 的上界。如果训练集上的误差小于 $\frac{\epsilon}{2}$,则大约需要一定数量的示例来使泛化误差小于 $\epsilon$。对于具有 N 个输入和一个包含 H 个单元的全连接隐藏层的网络,他们还推导出了 VC 维的下界 $d_{VC} > 2[\frac{H}{2}]N - W$(对于大 H),并表明大致需要 $\frac{W}{\epsilon}$ 个训练示例才能期望泛化误差小于 $\epsilon$。
最优网络架构
网络架构对于获得良好的泛化能力至关重要,每个应用都需要适合自身的架构。为了实现这一点,需要将尽可能多的问题相关知识融入网络,并适当限制连接数量。因此,寻找不仅能优化给定架构的权重,还能优化架构本身的算法是很有必要
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



