全连接深度网络:原理、训练与挑战
1. 全连接深度网络基础
全连接深度网络由一系列全连接层构成,每个全连接层是一个从 ℝm 到 ℝn 的函数,其每个输出维度都依赖于每个输入维度。以下是全连接层的数学表示:
设 x ∈ℝm 为全连接层的输入,yi ∈ℝ 为该层的第 i 个输出,则:
[y_i = \sigma(w_1x_1 + \cdots + w_mx_m)]
其中,σ 是非线性函数(可先将其视为之前章节介绍的 sigmoid 函数),wi 是网络中的可学习参数。完整的输出 y 为:
[y =
\begin{bmatrix}
\sigma(w_{1,1}x_1 + \cdots + w_{1,m}x_m) \
\vdots \
\sigma(w_{n,1}x_1 + \cdots + w_{n,m}x_m)
\end{bmatrix}
]
为提高效率,通常将 y 计算为矩阵乘法:
[y = \sigma(wx)]
这里,sigma 是 ℝn × m 矩阵,非线性函数 σ 按元素应用。
全连接网络中的节点通常被称为“神经元”,这一命名源于历史。20 世纪 40 年代,Warren S. McCulloch 和 Walter Pitts 提出大脑的数学模型,认为神经元能对布尔量进行任意函数计算。后来的研究者将数学“神经元”改进为连续函数,当输入足够大时“激发”(取值为 1),否则静止。但真实的神经元极其复杂,与人工神经元有很大差异。
2. 全连接网络的学习与理论
- 反向传播学习 :最
超级会员免费看
订阅专栏 解锁全文
1254

被折叠的 条评论
为什么被折叠?



