37、深度学习架构中的输出流形与参数优化

最新推荐文章于 2025-11-25 14:31:30 发布

devops8pract

最新推荐文章于 2025-11-25 14:31:30 发布

阅读量32

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习的数学基石文章标签：深度学习输出流形参数优化

本文链接：https://blog.youkuaiyun.com/devops8pract/article/details/151037207

深度学习的数学基石专栏收录该内容

58 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度学习架构中的输出流形与参数优化

1. 最优参数值

在深度学习中，考虑训练集 ${(x_1, z_1), (x_2, z_2), \ldots, (x_n, z_n)}$，对于一维输入 $x_i$，网络对应的一维输出为 $y_i$，且 $y_i = y_i(\theta)$，其中 $\theta \in R^r$ 是网络的参数向量。向量 $y^T = (y_1, \ldots, y_n) \in R^n$ 由 $\theta$ 参数化，描述了 $R^n$ 中一个 $r$ 维的流形 $S$。

训练网络的目标是找到 $\theta^ $ 的精确或近似值，使得从 $z^T = (z_1, \ldots, z_n)$ 到流形 $S$ 的欧几里得距离最小，即：
$\theta^ = \arg \min_{\theta} \text{dist}(z, S) = \arg \min_{\theta} |z - y(\theta)|$

这等价于 $y(\theta^*)$ 是 $z$ 在流形 $S$ 上的正交投影。

如果网络有两个隐藏层，$r = \frac{N^2}{4} + 2N$，其中 $N$ 是隐藏神经元的数量。当 $\frac{N^2}{4} + 2N \geq n$ 时，网络会出现过拟合，因为它会记住整个训练集。

假设 $\frac{N^2}{4} + 2N = n$，子流形 $S$ 与目标空间 $R^n$ 具有相同的维度，那么可以选择参数 $\theta$ 使得点 $z$ 属于流形 $S$，此时上述距离为零。具体来说，方程组：
$\begin{cases}
y_1(\theta) = z_