35、感知机任务可实现性与分类容量研究

rust6ferris

于 2025-11-07 14:51:16 发布

阅读量18

点赞数

CC 4.0 BY-SA版权

分类专栏：神经信息处理的跨学科之旅文章标签：感知机分类容量版本空间

本文链接：https://blog.youkuaiyun.com/rust6ferris/article/details/154685260

神经信息处理的跨学科之旅专栏收录该内容

39 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

感知机任务可实现性与分类容量研究

1. 版本空间与可解性判断

在研究任务可实现性时，参数空间的一个子集被称为版本空间。配分函数在零温度极限下，就是版本空间的体积 $V (D)$，其表达式为：
[V (D) = \lim_{\beta \to \infty}Z(D) = \int_{G} dw \prod_{\mu} [1 - E_{\mu}(w|D)]]
通常认为，该体积会随系统规模呈指数级变化，即 $V (D) = e^{N\Phi(D)}$，所以我们关注的量是：
[\Phi(D) = \lim_{\beta \to \infty} \frac{1}{N} \ln Z(D)]
这一量（除去一个因子 $-\beta$）是每个自由度的自由能在零温度下的极限，并且与后者一样，预计具有自平均性。因此，合理的定义为：
[\Phi = \Phi(D) = \lim_{N \to \infty} \frac{1}{N} \ln V (D)]
基于此，存在两种不同的可能情况：
- $\Phi = -\infty$：以概率 1 不存在解。
- $\Phi =$ 有限值：以概率 1 存在解。

对于大型系统，判断解是否存在的问题就简化为计算上述 $\Phi$ 的值。当数据较少时，$\Phi$ 通常为有限值，意味着版本空间不可忽略且有许多解。然而，随着数据数量的增加和/或任务复杂度的提升，在某个阶段会出现 $\Phi \downarrow -\infty$ 的情况，这定义了一个临界点，标志着可解性的崩溃，在很多情况下可以明确计算出该临界点。

2. 感知机容量 - 定义与简单示例

2.1 二元感知机与线性分类任务

我们以二元感知机为例，说明上述理论结果在实际问题中的应用。二元感知机进行常见的线性分离 $S: \Xi \subseteq {-1, 1}^N \to {-1, 1}$，定义为 $S(\xi) = \text{sgn}(J \cdot \xi + \vartheta)$。该系统的任务是进行二元分类，由一组数据 $D$ 定义，数据 $D$ 包含 $p$ 个输入向量 $\xi_{\mu} \in \mathbb{R}^N$ 以及对应的输出 $t_{\mu} \in {-1, 1}$，即：
[D = {(\xi_1, t_1), \ldots, (\xi_p, t_p)}]
我们并不清楚这些数据是否线性可分。如果随机抽取数据 $D$，只有当 $p$ 足够小时，问题才可能线性可分。对于 $N \to \infty$ 且 $\xi_{\mu} \in {-1, 1}^N$ 的情况，感知机能够解决随机数据分离问题的充要条件是 $\lim_{N \to \infty} p/N < 2$。

2.2 线性可分条件

数据能够被参数为 $(J, \vartheta)$ 的感知机正确分类，且所有输入向量与分离平面的距离大于 $\kappa > 0$ 的充分必要条件可以用稳定性参数表示：
[\forall \mu \leq p: \frac{t_{\mu}(J \cdot \xi_{\mu} + \vartheta)}{|J|} > \kappa]
为了消除参数缩放的自由度（即 $(J, \vartheta) \to \lambda(J, \vartheta)$，$\lambda > 0$，这种缩放不改变操作），我们进行如下操作：
- 对 $J$ 进行归一化，要求 $J^2 = N$，使得平均情况下 $J_i = O(N^0)$。
- 将阈值 $\vartheta$ 改写为 $\vartheta = J_0 \sqrt{N}$，其中 $J_0 = O(N^0)$，并要求 $|J_0| \leq \Delta$（$\Delta \geq 0$）。

这样，上述定义转化为：
[S(\xi) = \text{sgn}(N^{-1/2}J \cdot \xi + J_0)]
[J^2 = N]
[|J_0| \leq \Delta]
每个允许的 $(J, J_0)$ 选择代表一个不同的感知机。此时，Gardner 空间 $G$ 定义为：
[G = {(J, J_0) \in \mathbb{R}^{N + 1} | J^2 = N, |J_0| \leq \Delta}]
参数 $\Delta$ 的引入是为了确保 $\int_{G} dJdJ_0 < \infty$，它可以任意大。感知机 $(J, J_0) \in G$ 以稳定性 $\kappa$ 解决任务 $D$ 的充分必要条件为：
[\text{正确分离，稳定性} > \kappa \Leftrightarrow \gamma_{\mu}(J, J_0|D) > \kappa, \forall \mu \leq p]
其中，稳定性参数简化为：
[\gamma_{\mu}(J, J_0|D) = t_{\mu}(N^{-1/2}J \cdot \xi_{\mu} + J_0)]

2.3 错误度量与版本空间体积

为了应用前面关于解存在性的结果，我们需要标量误差度量 $E_{\mu}(J, J_0|D) \in {0, 1}$ 来判断感知机 $(J, J_0) \in G$ 是否以误差余量 $\kappa > 0$ 正确分离数据点 $\xi_{\mu}$。可以选择：
[E_{\mu}(J, J_0|D) = 1 - \theta(\gamma_{\mu}(J, J_0|D) - \kappa)]
版本空间的体积 $V (D)$ 定义为 $G$ 中 $\sum_{\mu} E_{\mu}(J, J_0|D) = 0$（等价于 $\prod_{\mu} [1 - E_{\mu}(J, J_0|D)] = 1$）的区域体积，其表达式为：
[V (D) = \int_{G} dJdJ_0 \prod_{\mu = 1}^{p} \theta(\gamma_{\mu}(J, J_0|D) - \kappa)]
[ = \int_{-\Delta}^{\Delta} dJ_0 \int dJ \delta(J^2 - N) \prod_{\mu = 1}^{p} \theta(\gamma_{\mu}(J, J_0|D) - \kappa)]
[ = \int \frac{dz}{2\pi} e^{-izN} \int dJ e^{izJ^2} \int_{-\Delta}^{\Delta} dJ_0 \prod_{\mu = 1}^{p} \theta(\gamma_{\mu}(J, J_0|D) - \kappa)]
根据前面的结论，我们的任务就是从上述表达式计算 $\Phi = \lim_{N \to \infty} \frac{1}{N} \ln V (D)$。

2.4 简单问题：正交输入

在考虑完全随机数据的复杂情况之前，我们先看一个简单的问题，即数据 $D$ 的输入向量 $\xi_{\mu} \in \mathbb{R}^N$ 是正交的，也就是 $\xi_{\mu} \cdot \xi_{\nu} = N\delta_{\mu \nu}$。显然，这种情况下 $p \leq N$。我们可以使用 $p$ 个归一化向量 $\hat{e} {\mu} = \xi {\mu} / \sqrt{N}$ 作为 $\mathbb{R}^N$ 的基，此时 $J \cdot \xi_{\mu} = \sqrt{N}J_{\mu}$，$V (D)$ 可表示为：
[V (D) = \int \frac{dz}{2\pi} e^{-izN} \int dJ e^{izJ^2} \int_{-\Delta}^{\Delta} dJ_0 \prod_{\mu = 1}^{p} \theta(t_{\mu}(J_{\mu} + J_0) - \kappa)]
[ = \int dz e^{-izN} \left(\int dJ e^{izJ^2}\right)^{N - p} \int_{-\Delta}^{\Delta} dJ_0 \prod_{\mu = 1}^{p} \int dJ e^{izJ^2} \theta(t_{\mu}(J + J_0) - \kappa)]
如果将输出等于 $t_{\mu} = \pm 1$ 的数量表示为 $\frac{1}{2}p(1 \pm \gamma)$，并定义 $\alpha = p/N$，可以得到一个表达式，证实相关体积确实随系统规模 $N$ 呈指数级变化：
[V (D) = \int dz e^{N\mathcal{L}(z,\kappa)}]
[\Phi = \text{extr} z \mathcal{L}(z, \kappa)]
其中：
[\mathcal{L}(z, \kappa) = -iz + (1 - \alpha) \ln \int dJ e^{izJ^2} + \frac{1}{N} \ln \int {-\Delta}^{\Delta} dJ_0 \left(\int_{\kappa - J_0}^{\infty} dJ e^{izJ^2}\right)^{\frac{1}{2}(1 + \gamma)\alpha N} \left(\int_{\kappa + J_0}^{\infty} dJ e^{izJ^2}\right)^{\frac{1}{2}(1 - \gamma)\alpha N}]
为了简化，我们进一步考虑 $\gamma = 0$ 的情况（即输出值 $t_{\mu} = 1$ 和 $t_{\mu} = -1$ 出现的频率相同），此时对感知机阈值 $J_0$ 求极值得到 $J_0 = 0$，则：
[\mathcal{L}(z, \kappa) = -iz + (1 - \alpha) \ln \int dJ e^{izJ^2} + \alpha \ln \int_{\kappa}^{\infty} dJ e^{izJ^2}]
这种形式表明，上述表达式中的鞍点是纯虚数，令 $z = iu^2$（$u \in \mathbb{R}$ 且为正，平方确保积分存在），可得：
[\mathcal{L}(iu^2, \kappa) = u^2 + (1 - \alpha) \ln \int dJ e^{-u^2J^2} + \alpha \ln \int_{\kappa}^{\infty} dJ e^{-u^2J^2}]
[ = u^2 - \ln(u / \sqrt{\pi}) - \alpha \ln 2 + \alpha \ln(1 - \text{erf}(\kappa u))]
对 $\mathcal{L}$ 求极值，得到鞍点方程：
[u = F(u)]
[F(u) = \frac{1}{2u} + \frac{\alpha \kappa}{\sqrt{\pi}} \frac{e^{-\kappa^2 u^2}}{1 - \text{erf}(\kappa u)}]
函数 $F(u)$ 始终为正，初始时从奇点 $F(0) = \infty$ 下降。如果 $\alpha$ 和 $\kappa$ 都为正，$F(u)$ 在某个正的 $u$ 处有一个正的最小值，随后再次增加并趋近于 $F(\infty) = \infty$，渐近形式为 $F(u) \sim \alpha \kappa^2 u$（$u \to \infty$）。当且仅当 $\alpha \kappa^2 < 1$ 时，方程 $u = F(u)$ 有有限正解，此时 $\Phi$ 为有限值，意味着感知机分类问题以概率 1 存在解。当 $\alpha \kappa^2 = 1$ 时，有限解消失。因此，对于给定分类稳定性 $\kappa$ 的分类容量 $\alpha_c(\kappa)$ 为：
[\alpha_c(\kappa) = \kappa^{-2}]
（其中 $\alpha \leq 1$，以保证正交输入向量存在）。从该结果可以看出，当 $\kappa < 1$ 时，对于任何 $\alpha \leq 1$ 的值，数据总是可分离的；而当 $\kappa > 1$ 时，随着分类稳定性要求的提高，能够分类的数据点数量会减少，即 $\alpha_c(\kappa) < 1$。

下面是一个简单的流程图，展示了正交输入情况下计算感知机分类容量的主要步骤：

graph TD;
    A[定义数据和参数] --> B[计算版本空间体积V(D)];
    B --> C[得到L(z,κ)表达式];
    C --> D[令z = iu^2简化L];
    D --> E[求L的极值得到鞍点方程];
    E --> F[根据鞍点方程求解u];
    F --> G[判断 ακ^2与1的关系];
    G -- ακ^2 < 1 --> H[存在解，计算αc(κ)];
    G -- ακ^2 >= 1 --> I[无解];

3. 感知机容量 - 随机输入

3.1 随机输入下的问题处理

对于随机（因此非正交）的输入向量，之前正交输入的简单计算方法不再适用。此时，我们需要明确计算 $\Phi = \lim_{N \to \infty} \frac{1}{N} \ln V (D)$ 的无序平均值，这可以通过复制方法来实现。为了简化，我们只考虑无阈值的感知机（即 $J_0 = 0$），此时版本空间体积 $V (D)$ 的表达式为：
[V (D) = \int \frac{dz}{2\pi} e^{-izN} \int dJ e^{izJ^2} \prod_{\mu = 1}^{p} \theta(N^{-1/2}t_{\mu}J \cdot \xi_{\mu} - \kappa)]
我们考虑随机抽取的二进制输入向量 $\xi_{\mu} \in {-1, 1}^N$ 以及随机抽取的对应输出 $t_{\mu} \in {-1, 1}$，且所有分量取 $\pm 1$ 的概率相等。在定义 $\Phi$ 的无序平均中，我们可以使用规范变换 $\xi_{\mu} \to t_{\mu} \xi_{\mu}$ 消除输出变量，得到：
[\Phi = \lim_{N \to \infty} \frac{1}{N} \left\langle \ln \int dz e^{izN} \int dJ e^{-izJ^2} \prod_{\mu = 1}^{p} \theta(N^{-1/2}J \cdot \xi_{\mu} - \kappa) \right\rangle]

3.2 应用复制方法

应用复制恒等式 $\ln Z = \lim_{n \to 0} \frac{1}{n} \ln Z^n$，并将 $Z^n$ 写为 $n$ 重积分，即：
[\Phi = \lim_{N \to \infty} \lim_{n \to 0} \frac{1}{nN} \ln \int \prod_{a} \left(dz_a dJ^a e^{iz_a N - iz_a (J^a)^2}\right) \prod_{a} \prod_{\mu = 1}^{p} \theta \left(\frac{J^a \cdot \xi_{\mu}}{\sqrt{N}} - \kappa \right)]
为了继续处理上述表达式，我们需要计算阶跃函数乘积的无序平均值。为此，我们使用 $\theta(u)$ 的积分表示，它可以从 $\delta$ 函数的积分表示通过 $\theta’(u) = \delta(u)$ 得到：
[\theta(y - \kappa) = \int_{y - \kappa}^{-\infty} d\lambda \delta(\lambda) = \int_{y - \kappa}^{-\infty} d\lambda \int \frac{dx}{2\pi} e^{ix\lambda}]
[ = \int_{-\kappa}^{-\infty} d\lambda \int \frac{dx}{2\pi} e^{ix(y + \lambda)} = \int \frac{d\lambda dx}{2\pi} \theta(\lambda - \kappa) e^{ix(\lambda - y)}]
在上述表达式中有 $np$ 个阶跃函数，所以需要 $np$ 个新的积分变量。与正交输入情况一样，我们选择 $p = \alpha N$，其中 $\alpha = O(N^0)$。对于大的 $N$，包含无序平均的项可以表示为：
[\mathcal{M} = \prod_{a} \prod_{\mu = 1}^{p} \theta \left(\frac{J^a \cdot \xi_{\mu}}{\sqrt{N}} - \kappa \right)]
[ = \int \prod_{a\mu} \left(\frac{d\lambda^a_{\mu} dx^a_{\mu}}{2\pi} \theta(\lambda^a_{\mu} - \kappa) e^{ix^a_{\mu} \lambda^a_{\mu}} \right) e^{-i \sum_{i\mu} \xi_{\mu}^i \sum_{a} J^a_i x^a_{\mu} / \sqrt{N}}]
[ = \int \prod_{a\mu} \left(\frac{d\lambda^a_{\mu} dx^a_{\mu}}{2\pi} \theta(\lambda^a_{\mu} - \kappa) e^{ix^a_{\mu} \lambda^a_{\mu}} \right) \prod_{i\mu} \cos \left(\frac{\sum_{a} J^a_i x^a_{\mu}}{\sqrt{N}} \right)]
[ = \int \prod_{a\mu} \left(\frac{d\lambda^a_{\mu} dx^a_{\mu}}{2\pi} \theta(\lambda^a_{\mu} - \kappa) e^{ix^a_{\mu} \lambda^a_{\mu}} \right) e^{-\sum_{i\mu} (\sum_{a} J^a_i x^a_{\mu})^2 / 2N + O(N^0)}]
[ = \left\langle \int \prod_{a} \left(\frac{d\lambda^a dx^a}{2\pi} \theta(\lambda^a - \kappa) e^{ix^a \lambda^a} \right) e^{-\sum_{ab} x^a x^b \sum_{i} J^a_i J^b_i / 2N + O(N^{-1})} \right\rangle^p]
类比之前的方法，我们插入合适的 $\delta$ 函数来分离出 $n^2$ 个量 $N^{-1} \sum_{i} J^a_i J^b_i$，最终得到：
[\Phi = \lim_{N \to \infty} \lim_{n \to 0} \frac{1}{nN} \ln \int dz dq d\hat{q} e^{iN(\sum_{a} z_a + \sum_{ab} \hat{q} {ab} q {ab}) + O(\ln N)}]
[ \times \left(\int \prod_{a} \left(\frac{d\lambda^a dx^a}{2\pi} \theta(\lambda^a - \kappa) e^{ix^a \lambda^a} \right) e^{-\sum_{ab} x^a q_{ab} x^b / 2} \right)^p]
[ \times \left(\int \prod_{a} dJ^a e^{-i \sum_{a} z_a (J^a)^2 - i \sum_{ab} \hat{q} {ab} J^a \cdot J^b} \right)^N]
交换 $n \to 0$ 和 $N \to \infty$ 的极限顺序，并使用 $p = \alpha N$（$\alpha$ 对于 $N \to \infty$ 保持有限），最终得到一个需要用最速下降法计算的积分：
[\Phi = \lim {n \to 0} \frac{1}{n} \text{extr} {z,q,\hat{q}} \left{ i \sum {a} z_a + i \sum_{ab} \hat{q} {ab} q {ab} + \alpha \ln \int \prod_{a} \left(\frac{d\lambda^a dx^a}{2\pi} \theta(\lambda^a - \kappa) e^{ix^a \lambda^a} \right) e^{-\sum_{ab} x^a q_{ab} x^b / 2} + \ln \int \prod_{a} dJ^a e^{-i \sum_{ab} J^a (\hat{q} {ab} + z_a \delta {ab}) J^b} \right}]

3.3 引入复制对称假设

我们做复制对称（RS）假设，即：
[q_{ab} = \delta_{ab} + q(1 - \delta_{ab})]
[k_{ab} = K \delta_{ab} + k(1 - \delta_{ab})]
这两个 RS 矩阵有特定的特征向量，由此可以计算行列式：
[\det k = (K - k + nk)(K - k)^{n - 1} = (K - k)^n \left(1 + \frac{nk}{K - k} \right)]
[\det q = (1 - q + nq)(1 - q)^{n - 1} = (1 - q)^n \left(1 + \frac{nq}{1 - q} \right)]
[(q^{-1}) {ab} = \frac{\delta {ab}}{1 - q} - \frac{q}{(1 - q)(1 - q + nq)}]
使用这些 RS 恒等式简化上述表达式，并引入一个额外的高斯积分来线性化积分 $\int \prod_{a} d\lambda^a e^{-\sum_{ab} \lambda^a (q^{-1}) {ab} \lambda^b / 2}$ 中的二次指数，得到复制对称解下 $\Phi$ 的值为：
[2\Phi {RS} = (1 - \alpha) \ln(

2\pi) + \text{extr} \left{ K - kq - \ln(K - k) - \frac{k}{K - k} - \alpha \ln(1 - q) - \frac{\alpha q}{1 - q} + 2\alpha \int Dz \ln \int_{\kappa}^{\infty} d\lambda e^{-\lambda^2 / [2(1 - q)] + z\sqrt{q}\lambda / (1 - q)} \right]
对 $K$ 和 $k$ 求极值，得到两个鞍点方程 $(K - k)^2 = K - 2k$ 和 $k = -q(K - k)^2$。由于要使 $\Phi_{RS}$ 存在，需拒绝 $K = k = 0$ 的解，因此相关解为：
[K = \frac{1 - 2q}{(1 - q)^2}]
[k = -\frac{q}{(1 - q)^2}]
将上述解代入 $\Phi_{RS}$ 的表达式，最终得到只需要对剩余序参量 $q \in [0, 1]$ 求极值的表达式。通过对积分变量 $\lambda$ 进行简单变换 $\lambda = z\sqrt{q} + t\sqrt{2(1 - q)}$，可以将剩余积分用误差函数 $\text{erf}(x) = \frac{2}{\sqrt{\pi}} \int_{0}^{x} dt e^{-t^2}$ 表示，最终结果为：
[\Phi_{RS} = \text{extr} q \Phi {RS}(q)]
其中：
[\Phi_{RS}(q) = \frac{1}{2} + \frac{1}{2}(1 - 2\alpha) \ln 2 + \frac{1}{2} \ln \pi + \frac{1}{2} \ln(1 - q) + \frac{q}{2(1 - q)} + \alpha \int Dz \ln \left(1 - \text{erf} \left(\frac{\kappa - z\sqrt{q}}{\sqrt{2(1 - q)}} \right) \right)]

3.4 分类容量计算

从 $\Phi_{RS}(q)$ 的表达式可以看出，只要相关极值点处 $q < 1$，$\Phi_{RS}$ 就为有限值，这意味着随机数据 $D$ 的线性分类以概率 1 是可行的。系统的分类容量由鞍点处 $q = 1$ 的条件定义，这会给出控制参数 $\alpha$ 和 $\kappa$ 之间的关系，即临界相对大小 $\alpha_c(\kappa)$ 的表达式。对 $\Phi_{RS}(q)$ 关于 $q$ 求偏导数并令其为 0，得到鞍点方程：
[q = \alpha \frac{\sqrt{2(1 - q)}}{\sqrt{\pi}q} \int Dz [1 - \text{erf}(u)]^{-1} e^{-u^2}(\kappa\sqrt{q} - z)]
其中 $u = \frac{\kappa - z\sqrt{q}}{\sqrt{2(1 - q)}}$。当该方程的解为 $q = 1$ 时，分类不再可行。因此，$\alpha_c(\kappa)$ 可通过以下方程求解：
[1 = \alpha_c(\kappa) \sqrt{\frac{2}{\pi}} \int Dz (\kappa - z) \lim_{q \uparrow 1} \left{\sqrt{1 - q}[1 - \text{erf}(u)]^{-1} e^{-u^2} \right}]
通过令 $q = 1 - \epsilon^2$（$\epsilon \to 0$）计算极限，根据 $\kappa - z$ 的值不同，极限结果不同：当 $\kappa - z < 0$ 时，极限为 0；当 $\kappa - z > 0$ 时，利用误差函数的渐近行为得到极限为 $(\kappa - z)\sqrt{\frac{\pi}{2}}$。综合可得：
[1 = \alpha_c(\kappa) \int_{-\infty}^{\kappa} Dz (\kappa - z)^2]
该式也可写为非常简洁的形式：
[\alpha_c(\kappa) = \left(\int_{-\kappa}^{\infty} Dz (\kappa + z)^2 \right)^{-1}]
这就是感知机对于随机二进制数据的分类容量，是所需稳定性 $\kappa$ 的函数。可以预期，$\alpha_c(\kappa)$ 随 $\kappa$ 单调递减，即所需的分离裕度越大，能够分类的数据数量就越少。当 $\kappa \to 0$ 时，得到分类的绝对上限 $\alpha_c(0) = 2$。当 $\alpha$ 较小时，即需要分类的数据点数量适中时，随机输入向量和正交输入向量之间的差异应该会变小。

下面是一个流程图，展示了随机输入情况下计算感知机分类容量的主要步骤：

graph TD;
    A[定义随机输入数据和参数] --> B[应用复制方法处理无序平均];
    B --> C[引入复制对称假设];
    C --> D[对K和k求极值得到解];
    D --> E[代入表达式得到只关于q的Phi_RS(q)];
    E --> F[对Phi_RS(q)求q的鞍点方程];
    F --> G[求解q = 1时的alpha_c(κ)];

3.5 结果分析与应用

由于任何 $N$ 个二进制神经元组成的全连接递归网络（作为联想记忆）在数学上等价于 $N$ 个并行工作的感知机，因此上述关于感知机分类容量的结果也适用于这类递归网络。这意味着，在没有阈值、没有噪声且没有其他任何约束的情况下，二进制神经元递归网络中能够作为固定点吸引子存储的随机模式的最大数量 $p_{max}$ 与 $N$ 的比值为 $p_{max}/N = 2$。

综上所述，通过对感知机在正交输入和随机输入情况下的分类容量研究，我们深入了解了感知机在不同条件下的性能和可解性。对于实际应用而言，这些结果可以帮助我们在设计和优化感知机或相关神经网络时，根据所需的分类稳定性和数据量来合理选择参数，以达到最佳的分类效果。例如，当我们需要高稳定性的分类时，就需要减少待分类的数据量；而当数据量较大时，可能需要降低对分类稳定性的要求。同时，这些理论结果也为进一步研究更复杂的神经网络模型提供了基础和参考。