16、多层网络与循环网络：架构优化与学习算法解析-优快云博客

本文链接：https://blog.youkuaiyun.com/tcp8optimizer/article/details/154626745

多层网络与循环网络：架构优化与学习算法解析

多层网络训练与泛化

在多层网络中，对于一个 N 输入的感知机，为了使某个界限小于一个小的数 $\epsilon$，在大 N 和大 p 的极限情况下，所需的训练示例数量 p 需满足 $p > \frac{8N \log(N)}{\epsilon^2}$。这表明在最坏情况下，训练所需的示例数量与 $N \log N$ 成比例增长。虽然相较于 $2^N$ 种可能的示例，这个增长速度似乎还可以接受，但系数 $\frac{8}{\epsilon^2}$ 对于较小的 $\epsilon$ 会降低人们的积极性。

对于一个具有 M 个阈值节点和 W 个权重（包括阈值）的一般前馈网络，Baum 和 Haussler 计算出其 VC 维的上界为 $d_{VC} < 2W \log_2(eM)$，其中 $e$ 是自然对数的底数。由此他们推导出获得良好泛化概率所需的训练集大小 p 的上界。如果训练集上的误差小于 $\frac{\epsilon}{2}$，则大约需要一定数量的示例来使泛化误差小于 $\epsilon$。对于具有 N 个输入和一个包含 H 个单元的全连接隐藏层的网络，他们还推导出了 VC 维的下界 $d_{VC} > 2[\frac{H}{2}]N - W$（对于大 H），并表明大致需要 $\frac{W}{\epsilon}$ 个训练示例才能期望泛化误差小于 $\epsilon$。