深度学习架构中的输出流形与参数优化
1. 最优参数值
在深度学习中,考虑训练集 ${(x_1, z_1), (x_2, z_2), \ldots, (x_n, z_n)}$,对于一维输入 $x_i$,网络对应的一维输出为 $y_i$,且 $y_i = y_i(\theta)$,其中 $\theta \in R^r$ 是网络的参数向量。向量 $y^T = (y_1, \ldots, y_n) \in R^n$ 由 $\theta$ 参数化,描述了 $R^n$ 中一个 $r$ 维的流形 $S$。
训练网络的目标是找到 $\theta^ $ 的精确或近似值,使得从 $z^T = (z_1, \ldots, z_n)$ 到流形 $S$ 的欧几里得距离最小,即:
$\theta^ = \arg \min_{\theta} \text{dist}(z, S) = \arg \min_{\theta} |z - y(\theta)|$
这等价于 $y(\theta^*)$ 是 $z$ 在流形 $S$ 上的正交投影。
如果网络有两个隐藏层,$r = \frac{N^2}{4} + 2N$,其中 $N$ 是隐藏神经元的数量。当 $\frac{N^2}{4} + 2N \geq n$ 时,网络会出现过拟合,因为它会记住整个训练集。
假设 $\frac{N^2}{4} + 2N = n$,子流形 $S$ 与目标空间 $R^n$ 具有相同的维度,那么可以选择参数 $\theta$ 使得点 $z$ 属于流形 $S$,此时上述距离为零。具体来说,方程组:
$\begin{cases}
y_1(\theta) = z_
超级会员免费看
订阅专栏 解锁全文
886

被折叠的 条评论
为什么被折叠?



