44、卷积神经网络的几何结构、等变性与不变性

卷积神经网络的几何结构、等变性与不变性

在深度学习领域,卷积神经网络(CNN)凭借其强大的性能在图像识别等任务中表现出色。本文将深入探讨CNN的几何结构、等变性和不变性等重要概念。

1. CNN的几何结构

在神经网络中,每个网络都可以关联一个流形,网络的权重和偏置是该流形上的坐标系。流形的维度等于网络参数的数量,可通过公式 (d(0)d(1) + d(1)d(2) + \cdots + d(\ell - 1)d(\ell) + \cdots + d(L - 1)d(L) + N) 来表示。

CNN的一个重要特点是其权重和偏置在神经元之间共享,这大大减少了网络的总参数数量,进而降低了关联输出流形的维度。这种特性具有正则化的效果,使得CNN通常不易对训练数据产生过拟合。

以下通过两个例子进行对比说明:
|网络类型|CNN维度|全连接层网络维度|
| ---- | ---- | ---- |
|图16.3a所示网络|2 + 2 + 5 + 4 = 13(四个权重和九个偏置)|6 × 5 + 5 × 4 + 5 + 4 = 59|
|图16.4a所示网络|2 + 2 + 4 + 2 = 10(四个权重和六个偏置)|6 × 4 + 4 × 2 + 4 + 2 = 38|

从这两个例子可以看出,全连接层网络的神经流形维度明显大于类似的CNN网络。一般来说,所有的CNN网络都具有这种特性。

2. 等变性和不变性

CNN能够检测图像中的局部模式,而不受其位置的影响。这是因为CNN具有平移等变性,即如果输入图像通过某个向量进行平移,那么网络中每个更高层的激活模式也会通过相同的向量进行平移。因此,CNN在图像识别任务中取得成功的一个关键因素就是其等变性特性。

为了进一步深入理解,我们引入群论的概念,用输入的任何变换群来替代平移集,并通过网络相对于所考虑变换的等变性来解释网络参数的对称性。

2.1 群的定义

群是一个集合 (G),赋予了一个乘法表示的合成法则 (G \times G \to G),并满足以下性质:
1. 对于任意 (g_1, g_2 \in G),有 (g_1g_2 \in G)。
2. 对于任意 (g_1, g_2, g_3 \in G),有 (g_1(g_2g_3) = (g_1g_2)g_3)。
3. 存在唯一的元素 (e \in G),使得对于任意 (x \in G),有 (xe = ex = x)。
4. 对于任意 (g \in G),存在 (g^{-1} \in G),使得 (gg^{-1} = g^{-1}g = e)。

如果群法则合成中元素的顺序无关紧要,即对于任意 (g_1, g_2 \in G),有 (g_1g_2 = g_2g_1),则该群 (G) 称为交换群。根据元素的数量,群 (G) 可以是有限群或无限群。任何 (G) 的子集 (H),如果在与 (G) 相同的法则下形成一个群,则称为子群,记为 (H \leq G)。

以下是一些群的例子:
- 整数集 (Z) 与加法运算 :形成一个交换群,(n) 的逆元是 (-n),中性元素是 (e = 0)。整数格 (Z \times Z) 同样在分量加法下形成交换群,其中性元素是 ((0, 0))。(3Z = {3m; m \in Z}) 是 (Z) 的子群,({(2i, 2j); i, j \in Z}) 是 (Z \times Z) 的子群。
- 三维空间中的平移群 (T(R^3)) :对于向量 (v \in R^3),定义平移 (\tau_v : R^3 \to R^3) 为 (\tau_v(x) = x + v)。集合 (G = T(R^3) = {\tau_v; v \in R^3}) 关于函数合成形成一个群,有 (\tau_v \circ \tau_u = \tau_{v + u}) 和 ((\tau_v)^{-1} = \tau_{-v}),中性元素是 (\tau_0 = Id),即 (R^3) 的恒等变换。
- 二维平面上的旋转群 (SO(2)) :(2 \times 2) 矩阵 (R_{\theta} = \begin{bmatrix} \cos \theta & -\sin \theta \ \sin \theta & \cos \theta \end{bmatrix}) 表示平面 (R^2) 绕原点的逆时针旋转。集合 (SO(2) = {R_{\theta}; \theta \in R}) 在矩阵乘法下形成一个群,称为 (R^2) 的特殊正交群,有 (R_{\theta}R_{\theta’} = R_{\theta’}R_{\theta} = R_{\theta + \theta’}) 和 (R_{\theta}^{-1} = R_{-\theta})。
- 三维海森堡群 (R^3) :集合 (G = R^3) 与合成法则 ((x_1, x_2, x_3) \circ (y_1, y_2, y_3) = (x_1 + y_1, x_2 + y_2, x_3 + y_3 + x_1y_2)) 形成一个群,这不是一个交换群。元素的逆元为 ((x_1, x_2, x_3)^{-1} = (-x_1, -x_2, -x_3 + x_1x_2)),中性元素是 (e = (0, 0, 0))。

2.2 群在集合上的作用

设 (G) 是一个群,(M) 是一个集合。群 (G) 在集合 (M) 上的作用是一个映射 (\alpha : G \times M \to M),满足以下条件:
1. 对于任意 (g, g’ \in G) 和 (x \in M),有 (\alpha(gg’, x) = \alpha(g, \alpha(g’, x)))。
2. 对于任意 (x \in M),有 (\alpha(e, x) = x)。

对于固定的 (g \in G),定义 (T_g : M \to M) 为 (T_gx = \alpha(g, x))。集合 ({T_g; g \in G}) 关于函数合成形成一个群,有 (T_gT_{g’} = T_{gg’}) 和 (T_ex = x),并且 ((T_g)^{-1} = T_{g^{-1}})。

对于给定的元素 (x \in M),集合 (O_x = {T_gx; g \in G}) 称为 (x) 的轨道。如果 (y, z \in O_x) 是 (x) 轨道中的两个元素,则存在 (g, g’ \in G) 使得 (y = T_gx) 和 (z = T_{g’}x)。令 (u = g’g^{-1}),则 (z = T_uy),即 (z \in O_y)。实际上,可以证明 (O_x = O_y = O_z)。

如果对于任意两个元素 (x, y \in M),存在 (g \in G) 使得 (y = T_gx),则称作用 (\alpha) 是传递的。等价地,作用 (\alpha) 是传递的当且仅当它只有一个轨道,即对于所有 (x \in M),有 (M = O_x)。

以下是一些群作用的例子:
- 平移群 (T(R^3)) 在 (R^3) 上的作用 :设 (M = R^3),(G = T(R^3))。对于向量 (x \in R^3) 和 (g = \tau_v),定义 (\alpha(g, x) = \tau_v(x) = x + v)。该作用是传递的,因为任何元素 (x \in R^3) 都可以平移到任何其他元素 (y \in R^3)。
- 旋转群 (SO(2)) 在 (R^2) 上的作用 :设 (M = R^2),(G = SO(2))。对于向量 (x \in R^2) 和 (g = R_{\theta}),定义 (\alpha(g, x) = R_{\theta}x)。该作用不是传递的,元素 (x \in R^2) 的轨道是圆心在原点,半径为 (|x|) 的圆。
- 海森堡群在 (R^3) 上的作用 :设 (M = R^3),(G = (R^3, \circ))。对于 (g = (g_1, g_2, g_3)) 和 (x = (x_1, x_2, x_3)),定义 (\alpha(g, x) = (g_1 + x_1, g_2 + x_2, g_3 + x_3 + g_1x_2))。该作用是传递的,因为对于任意 (x, y \in R^3),存在 (g = (y_1 - x_1, y_2 - x_2, y_3 - x_3 + x_1x_2 - y_1x_2)) 使得 (T_gx = y)。

2.3 作用到函数的扩展

我们已经知道群 (G) 在集合 (M) 上的作用 (\alpha : G \times M \to M) 为每个群元素 (g \in G) 诱导了一个 (M) 上的变换 (T_g : M \to M)。现在我们将这个变换扩展到 (M) 上的函数。

设 (F(M) = {f : M \to R}) 是 (M) 上的实函数集合。对于任意元素 (g \in G),定义变换 (T_g : F(M) \to F(M)) 为 (T_gf = f’),其中 (f’(T_g(x)) = f(x)),等价地可写为 ((T_gf)(x’) = f(T_{g^{-1}}(x’))),对于所有 (x’ \in M)。

以下是一些扩展作用的例子:
- 整数格上的扩展作用 :设 (Z) 表示整数集,(G = (Z \times Z, +)) 是分量加法下的群,(M = Z \times Z)。群 (G) 在 (M) 上的作用为 (\alpha((g_1, g_2), (x_1, x_2)) = (g_1 + x_1, g_2 + x_2))。诱导的变换 (T_{(g_1, g_2)}(x_1, x_2) = (g_1 + x_1, g_2 + x_2)),扩展到函数上为 ((T_{(g_1, g_2)}f)(x_1, x_2) = f(x_1 - g_1, x_2 - g_2))。
- 旋转群在 (R^2) 上函数的扩展作用 :在 (R^2) 上,对于旋转 (R_{\theta}),诱导的变换 (T_{R_{\theta}}x = (x_1 \cos \theta - x_2 \sin \theta, x_1 \sin \theta + x_2 \cos \theta)),扩展到函数上为 ((T_{R_{\theta}}f)(x) = f(x_1 \cos \theta + x_2 \sin \theta, x_2 \cos \theta - x_1 \sin \theta))。

2.4 等变性的定义

考虑一个群 (G) 作用在两个集合 (M_1) 和 (M_2) 上,作用分别为 (\alpha_1 : G \times M_1 \to M_1) 和 (\alpha_2 : G \times M_2 \to M_2)。对于任意 (g \in G),这些作用诱导了变换 (T_g : M_1 \to M_1) 和 (T’_g : M_2 \to M_2),并扩展到函数上为 (T_g : F(M_1) \to F(M_1)) 和 (T’_g : F(M_2) \to F(M_2))。

如果对于任意群元素 (g \in G) 和所有 (f \in F(M_1)),有 (\Phi(T_gf) = T’_g(\Phi(f))),则称映射 (\Phi : F(M_1) \to F(M_2)) 是 (G) - 等变的。

在神经网络中,我们可以将 (M_1) 和 (M_2) 分别看作前馈神经网络输入层和输出层的神经元集合。输入 (x^{(0)}) 和输出 (x^{(L)}) 分别是定义在 (M_1) 和 (M_2) 上的函数。网络的输入 - 输出映射 (\Phi = f_{w,b}) 满足 (f_{w,b}(T_gx^{(0)}) = T’ g(f {w,b}(x^{(0)})) = T’_g(x^{(L)})),对于所有 (g \in G)。这表明当我们在群作用诱导的变换族内变换输入 (x^{(0)}) 时,输出 (x^{(L)}) 会以可预测的方式进行变换。

一个具有 (L + 1) 层的前馈神经网络 (N),如果存在一个群 (G) 作用在集合 (M_0, \cdots, M_L) 上,且当输入通过 (x^{(0)} \to T^{(0)} g(x^{(0)})) 进行变换时,层激活通过 (x^{(\ell)} \to T^{(\ell)}_g(x^{(\ell)})) 进行变换,对于任意 (g \in G),则称该神经网络 (N) 是 (G) - 等变的前馈网络。需要注意的是,这个定义对于神经元集合 (M {\ell}) 是离散或连续的情况都适用。

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px

    A([输入图像]):::startend --> B(CNN网络):::process
    B --> C(检测局部模式):::process
    D(平移输入图像):::process --> E(平移后的输入图像):::process
    E --> F(CNN网络):::process
    F --> G(平移后的激活模式):::process
    C --> H(输出结果):::process
    G --> H

这个流程图展示了CNN的平移等变性。输入图像经过CNN网络检测局部模式得到输出结果。当输入图像进行平移后,再次经过CNN网络,得到的激活模式也会相应平移,最终同样得到输出结果。

通过以上内容,我们深入探讨了CNN的几何结构、等变性和不变性等重要概念,以及群论在其中的应用。这些概念对于理解CNN的工作原理和性能具有重要意义,为进一步研究和应用CNN提供了坚实的理论基础。在后续的内容中,我们将继续探讨卷积与等变性的关系以及相关的应用。

2.5 卷积和等变性

卷积网络是等变性的典型例子,它对平移群的作用具有等变性。用之前的符号表示,对于任何滤波器 (w),有 ((T_gx^{(0)}) * w = T’_g(x^{(0)} * w)),对于所有 (g \in G),这一关系在离散和连续情况下都可以得到证明。

为了简化,我们先考虑一维情况:
- 离散情况
[
\begin{align }
[(T_gx^{(0)}) * w] p&=\sum {i}(T_gx^{(0)}) {i + p}w_i\
&=\sum
{i}x^{(0)} {i + p - g}w_i\
&=(x^{(0)} * w)
{p - g}\
&=[T’_g(x^{(0)} * w)]_p
\end{align
}
]
- 连续情况
[
\begin{align }
(T_gx^{(0)}) * w &=\int_{R}(T_gx^{(0)})(u + t)w(u)du\
&=\int_{R}x^{(0)}(u + t - g)w(u)du\
&=(x^{(0)} * w)(t - g)\
&= T’_g(x^{(0)} * w)
\end{align
}
]

上述计算可以推广到群上。首先,对于定义在离散群 (G) 上的任意两个函数 (f, \psi : G \to R),卷积定义为 ((f * \psi)(t) = \sum_{y \in G}f(y)\psi(t^{-1}y))。验证 (G) - 等变性关系如下:
[
\begin{align }
(T_gx^{(0)} * w)(t)&=\sum_{y \in G}(T_gx^{(0)})(y)w(t^{-1}y)\
&=\sum_{y \in G}x^{(0)}(g^{-1}y)w(t^{-1}y)\
&=\sum_{v \in G}x^{(0)}(v)w(t^{-1}gv)\
&=\sum_{v \in G}x^{(0)}(v)w((g^{-1}t)^{-1}v)\
&= T_g(x^{(0)} * w)
\end{align
}
]
这里使用了变量替换 (v = g^{-1}y) 以及 (v \in g^{-1}G = G) 的事实。

等变性理论也可以扩展到连续紧群。在这种情况下,对于任意两个函数 (f, \psi : G \to R),卷积定义为 ((f * \psi)(t) = \int_{G}f(y)\psi(t^{-1}y)d\mu(y)),其中 (\mu) 是 (G) 上的左平移不变测度,且 (\mu(G) = 1),称为 (G) 上的哈尔测度。验证等变性的过程与离散情况类似,只是将求和替换为积分,并利用哈尔测度的不变性:
[
\begin{align }
(T_gx^{(0)} * w)(t)&=\int_{G}(T_gx^{(0)})(y)w(t^{-1}y)d\mu(y)\
&=\int_{G}x^{(0)}(g^{-1}y)w(t^{-1}y)d\mu(y)\
&=\int_{G}x^{(0)}(v)w(t^{-1}gv)d\mu(v)\
&=\int_{G}x^{(0)}(v)w((g^{-1}t)^{-1}v)d\mu(v)\
&= T_g(x^{(0)} * w)
\end{align
}
]

有研究人员将该技术应用于分析球形图像。他们将平面域的卷积定义调整到球体 (S^2 = {x \in R^3; |x| = 1}) 上,定义为 ((f * \psi)(R) = \int_{S^2}f(x)\psi(R^{-1}x)dx),其中 (\psi, f : S^2 \to R) 是两个球形信号,(R \in SO(3)) 是一个旋转。他们利用特殊正交群 (SO(3))(即保持距离且行列式为 1 的 (3 \times 3) 矩阵群)对球体 (S^2) 的作用来证明旋转等变性。

虽然平面卷积总是对平移群的作用具有等变性,但除非有一些额外的假设,否则它对旋转群 (SO(2)) 不是协变的。具体来说,设 (R \in SO(2)) 是平面的一个旋转,(f, w : R^2 \to R),则:
[
\begin{align }
(T_Rf) * w &=\sum_{y \in Z^2}(T_Rf)(y)w(y - x)\
&=\sum_{y \in Z^2}f(R^{-1}y)w(y - x)\
&=\sum_{u \in Z^2}f(u)w(Ru - x)\
&=\sum_{u \in Z^2}f(u)w(R(u - R^{-1}x))\
&=\sum_{u \in Z^2}f(u)(T_{R^{-1}}w)(u - R^{-1}x)\
&=(f * T_{R^{-1}}w)(R^{-1}x)\
&=T_R(f * T_{R^{-1}}w)
\end{align
}
]

如果我们将 (f) 看作一个信号,(w) 看作一个滤波器,并进一步假设 (w) 是一个旋转不变滤波器,即 (T_{R^{-1}}w = w),那么上述公式变为 ( (T_Rf) * w = T_R(f * w)),这表示平面卷积对于旋转不变滤波器具有协变性。

情况 等变性关系 说明
平移群(离散一维) ((T_gx^{(0)}) * w = T’_g(x^{(0)} * w)),通过求和验证 卷积网络对平移群作用等变
平移群(连续一维) ((T_gx^{(0)}) * w = T’_g(x^{(0)} * w)),通过积分验证 卷积网络对平移群作用等变
离散群 ((T_gx^{(0)} * w)(t) = T_g(x^{(0)} * w) ),变量替换验证 推广到离散群的等变性
连续紧群 ((T_gx^{(0)} * w)(t) = T_g(x^{(0)} * w) ),积分与哈尔测度验证 等变性理论扩展到连续紧群
平面旋转(一般情况) ( (T_Rf) * w = T_R(f * T_{R^{-1}}w)) 平面卷积对旋转群一般不等变
平面旋转(旋转不变滤波器) ( (T_Rf) * w = T_R(f * w)) 平面卷积对旋转不变滤波器协变
graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px

    A([输入信号 \(x^{(0)}\)]):::startend --> B(卷积 \(x^{(0)} * w\)):::process
    B --> C(输出结果):::process
    D(平移输入信号 \(T_gx^{(0)}\)):::process --> E(卷积 \((T_gx^{(0)}) * w\)):::process
    E --> F(平移后的输出 \(T'_g(x^{(0)} * w)\)):::process
    C --> G(最终输出):::process
    F --> G

这个流程图展示了卷积的平移等变性。输入信号经过卷积得到输出结果,当输入信号进行平移后,再次进行卷积,得到的输出结果也会相应平移,最终都指向最终输出。

总结

本文围绕卷积神经网络(CNN)展开了全面而深入的探讨。首先,我们剖析了CNN的几何结构,发现其权重和偏置共享的特性大大减少了网络的总参数数量,降低了关联输出流形的维度,有效避免了过拟合问题,这是CNN相较于全连接层网络的显著优势。

接着,我们引入了等变性和不变性的概念。CNN的平移等变性使其能够在图像识别中准确检测局部模式,不受其位置影响,这是其在图像识别任务中取得成功的关键因素。为了进一步挖掘CNN的潜力,我们引入了群论的知识,详细介绍了群的定义、群在集合上的作用、作用到函数的扩展以及等变性的定义,这些理论为理解CNN的工作原理提供了坚实的数学基础。

最后,我们重点探讨了卷积和等变性的关系。卷积网络对平移群的作用具有等变性,这一性质在离散和连续情况下都得到了证明,并且可以推广到离散群和连续紧群。同时,我们还研究了平面卷积对旋转群的协变性问题,发现通过使用旋转不变滤波器可以实现平面卷积对旋转的协变性。

总的来说,这些理论和概念对于深入理解CNN的性能和工作机制具有重要意义,为CNN在更多领域的应用和优化提供了理论支持。未来,我们可以基于这些理论进一步探索CNN在复杂场景下的应用,如处理具有旋转、缩放等变换的图像,以及在其他领域如语音识别、自然语言处理中的应用,推动深度学习技术的不断发展。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值