原像与约简集方法:提升模型稀疏性与效率的探索
1. 最优展开系数
假设向量 $\Phi(z_1), \cdots, \Phi(z_m)$ 线性无关,要最小化 $\left|\sum_{i = 1}^{m} \beta_i\Phi(x_i) - \sum_{i = 1}^{m} \theta_i\Phi(z_i)\right|$,其展开系数 $\theta = (\theta_1, \cdots, \theta_m)^T$ 由 $\theta = (K_z)^{-1}K_{zx}\beta$ 给出。
其中,$K_{z_{ij}} = \langle\Phi(z_i), \Phi(z_j)\rangle$,$K_{zx_{ij}} = \langle\Phi(z_i), \Phi(x_j)\rangle$。若 $\Phi(z_i)$ 线性无关,$K_z$ 满秩;否则,可使用伪逆或选择零分量最多的解。
证明过程为:计算距离的导数 $\frac{\partial}{\partial \theta_j}\left|\Psi - \sum_{i = 1}^{m} \theta_i\Phi(z_i)\right|^2 = -2\Phi(z_j)\left(\Psi - \sum_{i = 1}^{m} \theta_i\Phi(z_i)\right)$,令其为 0。代入 $\Psi = \sum_{i = 1}^{m} \beta_i\Phi(x_i)$ 可得 $K_{zx}\beta = K_z\theta$,进而得到 $\theta = (K_z)^{-1}K_{zx}\beta$。
2. 约简集选择方法
支持向量机(SVM)扩展中的系数受限于 $[-C, C]$,这使得 SV 扩展并非最稀疏。以下是几种约简集选择方法:
-
通过核主成分分析(Kernel PCA)进行约简集选择
- 原理:Gram 矩阵 $K_{ij} = \langle\Phi(x_i), \Phi(x_j)\rangle$ 的零空间表明可在不产生近似误差的情况下从扩展中移除多少向量。若存在特征值为 0 的特征向量 $\alpha \neq 0$,即 $K\alpha = 0$,则 $\sum_{j = 1}^{m} \langle\Phi(x_i), \Phi(x_j)\rangle \alpha_j = 0$,进而 $\sum_{j = 1}^{m} \alpha_j\Phi(x_j) = 0$,可利用这些特征向量消除扩展中的某些项。
- 操作步骤:
1. 若没有零特征值(如高斯核情况),为选择最优的 $n$ 以移除 $\Phi(x_n)$,需最小化误差 $\epsilon(\theta, n) = \left|\beta_n\Phi(x_n) - \sum_{j \neq n} \theta_j\Phi(x_j)\right|^2$。
2. 通过变量替换,将问题转化为最小化 $\epsilon(\xi, n) = \left|\frac{\beta_n}{\xi_n}\right|^2\xi^T K\xi$,其中 $|\xi| = 1$。
3. 可通过核主成分分析并扫描矩阵 $(\epsilon(i, n))_{in}$ 在 $O(m^3)$ 操作内完成最小化,也可通过只考虑最小的 $m’$ 个特征值将复杂度降至 $O(m + m^2)$。
- 实验结果:以 USPS 手写数字数据库为例,对 10 个二分类器的 SV 扩展进行近似。不同平均 RS 模式数量下的分类错误结果如下表所示:
| digit | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 - class |
| — | — | — | — | — | — | — | — | — | — | — | — |
| #SVs | 219 | 91 | 316 | 309 | 288 | 340 | 213 | 206 | 304 | 250 | 254 |
| SV - 254 | 16 | 13 | 30 | 17 | 32 | 22 | 11 | 12 | 26 | 17 | 4.4% |
| RSS - 50 | 47 | 18 | 70 | 52 | 192 | 95 | 54 | 38 | 97 | 157 | 17.6% |
| RSS - 75 | 23 | 15 | 36 | 30 | 65 | 47 | 21 | 29 | 56 | 41 | 7.0% |
| RSS - 100 | 19 | 15 | 42 | 22 | 40 | 29 | 14 | 18 | 37 | 27 | 5.5% |
| RSS - 150 | 18 | 12 | 28 | 21 | 35 | 32 | 9 | 15 | 23 | 14 | 4.5% |
| RSS - 200 | 14 | 13 | 27 | 25 | 27 | 26 | 11 | 13 | 26 | 21 | 4.5% |
| RSS - 250 | 15 | 13 | 27 | 24 | 32 | 28 | 11 | 14 | 25 | 18 | 4.3% |
-
通过 $l_1$ 惩罚进行约简集选择
- 原理:通过最小化 $\left|\sum_{i = 1}^{m} \beta_i\Phi(x_i) - \sum_{i = 1}^{m} \theta_i\Phi(x_i)\right|^2 + \lambda\sum_{i = 1}^{m} c_i|\theta_i|$ 来近似扩展 $\sum_{i} \beta_i\Phi(x_i)$,其中 $\lambda > 0$ 决定稀疏性和近似质量的权衡,$c_i$ 可设为 1 或 $\bar{\beta} / |\beta_i|$($\bar{\beta}$ 是所有 $|\beta_i|$ 的均值)。
-
操作步骤:
- 将 $\theta_i$ 重写为 $\theta_i = \theta_i^+ - \theta_i^-$,其中 $\theta_i^+ \geq 0$,$\theta_i^- \geq 0$。
-
得到二次规划问题:
- 最小化 $\sum_{ij} (\theta_i^+ - \theta_i^-)(\theta_j^+ - \theta_j^-)K_{ij} + \sum_{j} [\theta_j^+(\lambda c_j - 2\sum_{i} K_{ij}\beta_i) + \theta_j^-(\lambda c_j + 2\sum_{i} K_{ij}\beta_i)]$。
- 约束条件为 $\theta_j^+ \geq 0$,$\theta_j^- \geq 0$。
- 使用标准二次规划工具求解该问题,用解选择扩展中使用的模式,再根据前面的最优展开系数公式重新计算最优系数。
-
实验结果:同样以 USPS 手写数字数据库为例,不同平均 RS 模式数量下的分类错误结果如下表所示:
| digit | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 - cl. |
| — | — | — | — | — | — | — | — | — | — | — | — |
| SV - 254 | 16 | 13 | 30 | 17 | 32 | 22 | 11 | 12 | 26 | 17 | 4.4% |
| RSS2 - 50 (3.34) | 225 | 24 | 171 | 146 | 149 | 124 | 94 | 147 | 100 | 101 | 28.5% |
| RSS2 - 74 (2.55) | 113 | 25 | 100 | 100 | 120 | 95 | 40 | 147 | 83 | 50 | 10.8% |
| RSS2 - 101 (1.73) | 38 | 21 | 46 | 64 | 81 | 54 | 23 | 143 | 49 | 37 | 5.9% |
| RSS2 - 151 (0.62) | 19 | 20 | 30 | 24 | 31 | 30 | 10 | 27 | 33 | 18 | 4.5% |
| RSS2 - 200 (0.13) | 17 | 15 | 25 | 27 | 34 | 27 | 11 | 14 | 26 | 22 | 4.3% |
| RSS2 - 234 (0.02) | 16 | 14 | 26 | 24 | 32 | 28 | 11 | 14 | 26 | 19 | 4.3% |
-
通过稀疏贪心方法进行约简集选择
- 原理:从空扩展开始,贪心选择导致近似剩余模式误差最小的模式。
- 特点:计算效率高,但在很多情况下(除高斯过程回归外)不考虑原始特征空间向量的展开系数,并非严格意义上的约简集后处理方法,可视为稀疏训练算法。若特征空间的有效维度较低(核矩阵 $K$ 的特征值快速衰减),先验地找到约简集的稀疏近似方案效果较好。
-
原始重新表述
- 原理:SVM 扩展不稀疏的原因之一是系数受限,Osuna 和 Girosi 提出对原始 SVC 训练问题进行原始重新表述,将 $w = \sum_{i} \beta_i y_i\Phi(x_i)$ 代入训练问题。
-
操作步骤:
- 最小化 $\frac{1}{2} \sum_{i,j = 1}^{m} \beta_i \beta_j y_i y_j k(x_i, x_j) + C \sum_{i = 1}^{m} \xi_i$。
- 约束条件为 $y_i (\sum_{j = 1}^{m} \beta_j y_j k(x_i, x_j) + b) \geq 1 - \xi_i$,$i = 1, \cdots, m$,$\beta_i \geq 0$,$\xi_i \geq 0$。
- 特点:不再要求 $\beta_i \leq C$,但优化问题的结构不如原始形式吸引人,复杂的约束条件使设计解决大规模问题的算法更困难。该方法在一些小的实际问题中应用成功,推荐优化的起始点为 $\beta = 0$,还可使用 $l_1$ 惩罚项鼓励稀疏性。
-
通过支持向量回归进行约简集选择
- 原理:对决策函数 $g(x) = \sum_{i} \beta_i y_i k(x_i, x) + b$ 在支持向量上的值构成的数据集应用 $\nu$-SV 回归。若 SVR 训练使用大的 $C$ 值,几乎所有数据点应在用户设定的精度 $\nu$ 内被近似,SVR 解通常比 $g$ 更稀疏。
- 特点:结合 $\nu$-SV 回归算法可更直接控制约简集扩展的大小。
3. 约简集选择方法流程总结
graph TD;
A[开始] --> B[选择约简集选择方法];
B --> C{是否为核主成分分析方法};
C -- 是 --> D[计算 Gram 矩阵零空间等操作];
C -- 否 --> E{是否为 l1 惩罚方法};
E -- 是 --> F[重写变量并求解二次规划问题];
E -- 否 --> G{是否为稀疏贪心方法};
G -- 是 --> H[贪心选择模式];
G -- 否 --> I{是否为原始重新表述方法};
I -- 是 --> J[代入并求解新的优化问题];
I -- 否 --> K[进行支持向量回归];
D --> L[结束];
F --> L;
H --> L;
J --> L;
K --> L;
原像与约简集方法:提升模型稀疏性与效率的探索
4. 约简集构造方法
前面讨论了从原始集合中选择约简集的问题,现在探讨通过构造新向量来实现高约简率的方法。
-
迭代原像
- 原理:要使用类型为 $\sum_{i = 1}^{N_z} \theta_i\Phi(z_i)$ 的扩展来近似向量 $\Psi_1 = \sum_{i = 1}^{m} \beta_i\Phi(x_i)$,迭代寻找近似原像的过程。在第 $m’$ 步,需要找到 $\Psi_{m’} = \sum_{i = 1}^{m} \beta_i\Phi(x_i) - \sum_{i = 1}^{m’ - 1} \theta_i\Phi(z_i)$ 的原像 $z_{m’}$。每次迭代后根据最优展开系数公式更新系数(若 $\Psi_{m’}$ 不为零,$K_z$ 可逆)。
-
操作步骤:
- 开始迭代,初始 $m’ = 1$。
- 计算 $\Psi_{m’}$。
- 找到 $\Psi_{m’}$ 的原像 $z_{m’}$。对于高斯核,可按特定方法计算;对于多项式核,可直接最小化相关函数,使用无约束非线性优化技术。
- 根据最优展开系数公式更新系数。
- $m’$ 加 1,若达到指定的 $N_z$ 步或 $|\Psi_{m’}|$ 低于指定阈值,停止迭代。
- 示例:以高斯核为例的一个简单示例,如图 18.9 所示,展示了使用不同数量的 RS 向量对 SVM 决策边界进行近似的结果。
-
第二阶段:同时优化 RS 向量
- 原理:在计算完所有单个原像后,可进行第二阶段,同时对所有 $(z_i, \theta_i)$ 进行优化。
- 特点:经验表明该阶段计算成本比第一阶段高约两个数量级,数值处理困难,需要多次重启优化以避免陷入局部最小值。结束后建议使用最优展开系数公式重新计算 $\theta_i$。
-
实验结果
约简集构造方法的实验结果如下表所示,表明该方法比前面的约简集选择方法效果更好,因为它可以在扩展中使用与原始支持模式不同的向量。
| digit | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 - class |
|---|---|---|---|---|---|---|---|---|---|---|---|
| SV - 254 | 16 | 13 | 30 | 17 | 32 | 22 | 11 | 12 | 26 | 17 | 4.4% |
| RSC - 10 | 26 | 13 | 45 | 49 | 35 | 54 | 22 | 24 | 39 | 24 | 7.1% |
| RSC - 20 | 27 | 11 | 38 | 30 | 35 | 43 | 12 | 16 | 30 | 25 | 5.6% |
| RSC - 25 | 21 | 12 | 38 | 32 | 31 | 22 | 12 | 18 | 33 | 28 | 5.1% |
| RSC - 50 | 18 | 10 | 33 | 28 | 32 | 23 | 12 | 15 | 35 | 27 | 5.0% |
| RSC - 100 | 14 | 13 | 26 | 22 | 30 | 26 | 11 | 14 | 28 | 23 | 4.8% |
| RSC - 150 | 13 | 14 | 28 | 32 | 27 | 24 | 12 | 14 | 29 | 26 | 4.7% |
| RSC - 200 | 14 | 13 | 28 | 28 | 29 | 24 | 10 | 15 | 26 | 26 | 4.9% |
| RSC - 250 | 12 | 13 | 26 | 26 | 32 | 25 | 11 | 14 | 26 | 24 | 4.6% |
| RSC2 - 25 | 14 | 14 | 31 | 22 | 30 | 23 | 11 | 14 | 26 | 17 | 4.7% |
为了加快过程,可以使用具有 25 个 RS 向量的系统(RSC - 25),分类准确率仅从 4.4% 适度下降到 5.1%,与卷积神经网络在该数据库上的表现具有竞争力。通过添加第二阶段的全局梯度下降优化,可进一步提高系统性能,如 RSC2 - 25 的错误率降至 4.7%。
5. 不同方法对比总结
| 方法 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|
| 核主成分分析 | 在高约简率时效果略好 | 计算复杂度较高,需迭代移除 SV | 特征空间维度较高,希望在一定程度上保证近似精度的情况 |
| $l_1$ 惩罚 | 计算成本低,无需迭代移除 SV | 需要快速得到稀疏近似,不太关注特征空间维度的情况 | |
| 稀疏贪心方法 | 计算效率高 | 多数情况下不考虑展开系数,非严格约简集后处理方法 | 特征空间有效维度低,核矩阵特征值快速衰减的情况 |
| 原始重新表述 | 不再限制系数范围,可能得到更稀疏解 | 优化问题结构复杂,设计大规模问题算法困难 | 小规模实际问题,希望突破 SVM 系数限制的情况 |
| 支持向量回归 | 可直接控制约简集扩展大小,解通常更稀疏 | 需要对决策函数进行稀疏近似,且希望控制扩展大小的情况 | |
| 迭代原像与第二阶段优化 | 能使用不同向量扩展,效果好 | 计算成本高,数值处理困难 | 对近似精度要求较高,愿意投入计算资源的情况 |
6. 约简集构造方法流程总结
graph TD;
A[开始] --> B[进行迭代原像计算];
B --> C{是否达到指定步数或误差阈值};
C -- 是 --> D[进行第二阶段优化];
C -- 否 --> B;
D --> E[重新计算系数];
E --> F[结束];
综上所述,不同的约简集选择和构造方法各有优缺点,在实际应用中需要根据具体问题的特点,如数据规模、特征空间维度、计算资源和对近似精度的要求等,选择合适的方法来提高模型的稀疏性和效率。
超级会员免费看
6万+

被折叠的 条评论
为什么被折叠?



