52、原像与约简集方法：提升模型稀疏性与效率的探索

最新推荐文章于 2025-10-01 20:03:54 发布

sql99

最新推荐文章于 2025-10-01 20:03:54 发布

阅读量32

点赞数

CC 4.0 BY-SA版权

分类专栏：核方法：机器学习的基石文章标签：约简集原像方法模型稀疏性

本文链接：https://blog.youkuaiyun.com/sql99/article/details/152361856

核方法：机器学习的基石专栏收录该内容

55 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

原像与约简集方法：提升模型稀疏性与效率的探索

1. 最优展开系数

假设向量 $\Phi(z_1), \cdots, \Phi(z_m)$ 线性无关，要最小化 $\left|\sum_{i = 1}^{m} \beta_i\Phi(x_i) - \sum_{i = 1}^{m} \theta_i\Phi(z_i)\right|$，其展开系数 $\theta = (\theta_1, \cdots, \theta_m)^T$ 由 $\theta = (K_z)^{-1}K_{zx}\beta$ 给出。
其中，$K_{z_{ij}} = \langle\Phi(z_i), \Phi(z_j)\rangle$，$K_{zx_{ij}} = \langle\Phi(z_i), \Phi(x_j)\rangle$。若 $\Phi(z_i)$ 线性无关，$K_z$ 满秩；否则，可使用伪逆或选择零分量最多的解。

证明过程为：计算距离的导数 $\frac{\partial}{\partial \theta_j}\left|\Psi - \sum_{i = 1}^{m} \theta_i\Phi(z_i)\right|^2 = -2\Phi(z_j)\left(\Psi - \sum_{i = 1}^{m} \theta_i\Phi(z_i)\right)$，令其为 0。代入 $\Psi = \sum_{i = 1}^{m} \beta_i\Phi(x_i)$ 可得 $K_{zx}\beta = K_z\theta$，进而得到 $\theta = (K_z)^{-1}K_{zx}\beta$。

2. 约简集选择方法

支持向量机（SVM）扩展中的系数受限于 $[-C, C]$，这使得 SV 扩展并非最稀疏。以下是几种约简集选择方法：
- 通过核主成分分析（Kernel PCA）进行约简集选择
- 原理：Gram 矩阵 $K_{ij} = \langle\Phi(x_i), \Phi(x_j)\rangle$ 的零空间表明可在不产生近似误差的情况下从扩展中移除多少向量。若存在特征值为 0 的特征向量 $\alpha \neq 0$，即 $K\alpha = 0$，则 $\sum_{j = 1}^{m} \langle\Phi(x_i), \Phi(x_j)\rangle \alpha_j = 0$，进而 $\sum_{j = 1}^{m} \alpha_j\Phi(x_j) = 0$，可利用这些特征向量消除扩展中的某些项。
- 操作步骤：
1. 若没有零特征值（如高斯核情况），为选择最优的 $n$ 以移除 $\Phi(x_n)$，需最小化误差 $\epsilon(\theta, n) = \left|\beta_n\Phi(x_n) - \sum_{j \neq n} \theta_j\Phi(x_j)\right|^2$。
2. 通过变量替换，将问题转化为最小化 $\epsilon(\xi, n) = \left|\frac{\beta_n}{\xi_n}\right|^2\xi^T K\xi$，其中 $|\xi| = 1$。
3. 可通过核主成分分析并扫描矩阵 $(\epsilon(i, n))_{in}$ 在 $O(m^3)$ 操作内完成最小化，也可通过只考虑最小的 $m’$ 个特征值将复杂度降至 $O(m + m^2)$。
- 实验结果：以 USPS 手写数字数据库为例，对 10 个二分类器的 SV 扩展进行近似。不同平均 RS 模式数量下的分类错误结果如下表所示：
| digit | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 - class |
| — | — | — | — | — | — | — | — | — | — | — | — |
| #SVs | 219 | 91 | 316 | 309 | 288 | 340 | 213 | 206 | 304 | 250 | 254 |
| SV - 254 | 16 | 13 | 30 | 17 | 32 | 22 | 11 | 12 | 26 | 17 | 4.4% |
| RSS - 50 | 47 | 18 | 70 | 52 | 192 | 95 | 54 | 38 | 97 | 157 | 17.6% |
| RSS - 75 | 23 | 15 | 36 | 30 | 65 | 47 | 21 | 29 | 56 | 41 | 7.0% |
| RSS - 100 | 19 | 15 | 42 | 22 | 40 | 29 | 14 | 18 | 37 | 27 | 5.5% |
| RSS - 150 | 18 | 12 | 28 | 21 | 35 | 32 | 9 | 15 | 23 | 14 | 4.5% |
| RSS - 200 | 14 | 13 | 27 | 25 | 27 | 26 | 11 | 13 | 26 | 21 | 4.5% |
| RSS - 250 | 15 | 13 | 27 | 24 | 32 | 28 | 11 | 14 | 25 | 18 | 4.3% |

通过 $l_1$ 惩罚进行约简集选择
- 原理：通过最小化 $\left|\sum_{i = 1}^{m} \beta_i\Phi(x_i) - \sum_{i = 1}^{m} \theta_i\Phi(x_i)\right|^2 + \lambda\sum_{i = 1}^{m} c_i|\theta_i|$ 来近似扩展 $\sum_{i} \beta_i\Phi(x_i)$，其中 $\lambda > 0$ 决定稀疏性和近似质量的权衡，$c_i$ 可设为 1 或 $\bar{\beta} / |\beta_i|$（$\bar{\beta}$ 是所有 $|\beta_i|$ 的均值）。
- 操作步骤：
  1. 将 $\theta_i$ 重写为 $\theta_i = \theta_i^+ - \theta_i^-$，其中 $\theta_i^+ \geq 0$，$\theta_i^- \geq 0$。
  2. 得到二次规划问题：
    - 最小化 $\sum_{ij} (\theta_i^+ - \theta_i^-)(\theta_j^+ - \theta_j^-)K_{ij} + \sum_{j} [\theta_j^+(\lambda c_j - 2\sum_{i} K_{ij}\beta_i) + \theta_j^-(\lambda c_j + 2\sum_{i} K_{ij}\beta_i)]$。
    - 约束条件为 $\theta_j^+ \geq 0$，$\theta_j^- \geq 0$。
  3. 使用标准二次规划工具求解该问题，用解选择扩展中使用的模式，再根据前面的最优展开系数公式重新计算最优系数。
- 实验结果：同样以 USPS 手写数字数据库为例，不同平均 RS 模式数量下的分类错误结果如下表所示：
  | digit | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 - cl. |
  | — | — | — | — | — | — | — | — | — | — | — | — |
  | SV - 254 | 16 | 13 | 30 | 17 | 32 | 22 | 11 | 12 | 26 | 17 | 4.4% |
  | RSS2 - 50 (3.34) | 225 | 24 | 171 | 146 | 149 | 124 | 94 | 147 | 100 | 101 | 28.5% |
  | RSS2 - 74 (2.55) | 113 | 25 | 100 | 100 | 120 | 95 | 40 | 147 | 83 | 50 | 10.8% |
  | RSS2 - 101 (1.73) | 38 | 21 | 46 | 64 | 81 | 54 | 23 | 143 | 49 | 37 | 5.9% |
  | RSS2 - 151 (0.62) | 19 | 20 | 30 | 24 | 31 | 30 | 10 | 27 | 33 | 18 | 4.5% |
  | RSS2 - 200 (0.13) | 17 | 15 | 25 | 27 | 34 | 27 | 11 | 14 | 26 | 22 | 4.3% |
  | RSS2 - 234 (0.02) | 16 | 14 | 26 | 24 | 32 | 28 | 11 | 14 | 26 | 19 | 4.3% |
通过稀疏贪心方法进行约简集选择
- 原理：从空扩展开始，贪心选择导致近似剩余模式误差最小的模式。
- 特点：计算效率高，但在很多情况下（除高斯过程回归外）不考虑原始特征空间向量的展开系数，并非严格意义上的约简集后处理方法，可视为稀疏训练算法。若特征空间的有效维度较低（核矩阵 $K$ 的特征值快速衰减），先验地找到约简集的稀疏近似方案效果较好。
原始重新表述
- 原理：SVM 扩展不稀疏的原因之一是系数受限，Osuna 和 Girosi 提出对原始 SVC 训练问题进行原始重新表述，将 $w = \sum_{i} \beta_i y_i\Phi(x_i)$ 代入训练问题。
- 操作步骤：
  - 最小化 $\frac{1}{2} \sum_{i,j = 1}^{m} \beta_i \beta_j y_i y_j k(x_i, x_j) + C \sum_{i = 1}^{m} \xi_i$。
  - 约束条件为 $y_i (\sum_{j = 1}^{m} \beta_j y_j k(x_i, x_j) + b) \geq 1 - \xi_i$，$i = 1, \cdots, m$，$\beta_i \geq 0$，$\xi_i \geq 0$。
- 特点：不再要求 $\beta_i \leq C$，但优化问题的结构不如原始形式吸引人，复杂的约束条件使设计解决大规模问题的算法更困难。该方法在一些小的实际问题中应用成功，推荐优化的起始点为 $\beta = 0$，还可使用 $l_1$ 惩罚项鼓励稀疏性。
通过支持向量回归进行约简集选择
- 原理：对决策函数 $g(x) = \sum_{i} \beta_i y_i k(x_i, x) + b$ 在支持向量上的值构成的数据集应用 $\nu$-SV 回归。若 SVR 训练使用大的 $C$ 值，几乎所有数据点应在用户设定的精度 $\nu$ 内被近似，SVR 解通常比 $g$ 更稀疏。
- 特点：结合 $\nu$-SV 回归算法可更直接控制约简集扩展的大小。

3. 约简集选择方法流程总结

graph TD;
    A[开始] --> B[选择约简集选择方法];
    B --> C{是否为核主成分分析方法};
    C -- 是 --> D[计算 Gram 矩阵零空间等操作];
    C -- 否 --> E{是否为 l1 惩罚方法};
    E -- 是 --> F[重写变量并求解二次规划问题];
    E -- 否 --> G{是否为稀疏贪心方法};
    G -- 是 --> H[贪心选择模式];
    G -- 否 --> I{是否为原始重新表述方法};
    I -- 是 --> J[代入并求解新的优化问题];
    I -- 否 --> K[进行支持向量回归];
    D --> L[结束];
    F --> L;
    H --> L;
    J --> L;
    K --> L;

原像与约简集方法：提升模型稀疏性与效率的探索

4. 约简集构造方法

前面讨论了从原始集合中选择约简集的问题，现在探讨通过构造新向量来实现高约简率的方法。

迭代原像
- 原理：要使用类型为 $\sum_{i = 1}^{N_z} \theta_i\Phi(z_i)$ 的扩展来近似向量 $\Psi_1 = \sum_{i = 1}^{m} \beta_i\Phi(x_i)$，迭代寻找近似原像的过程。在第 $m’$ 步，需要找到 $\Psi_{m’} = \sum_{i = 1}^{m} \beta_i\Phi(x_i) - \sum_{i = 1}^{m’ - 1} \theta_i\Phi(z_i)$ 的原像 $z_{m’}$。每次迭代后根据最优展开系数公式更新系数（若 $\Psi_{m’}$ 不为零，$K_z$ 可逆）。
- 操作步骤：
  1. 开始迭代，初始 $m’ = 1$。
  2. 计算 $\Psi_{m’}$。
  3. 找到 $\Psi_{m’}$ 的原像 $z_{m’}$。对于高斯核，可按特定方法计算；对于多项式核，可直接最小化相关函数，使用无约束非线性优化技术。
  4. 根据最优展开系数公式更新系数。
  5. $m’$ 加 1，若达到指定的 $N_z$ 步或 $|\Psi_{m’}|$ 低于指定阈值，停止迭代。
- 示例：以高斯核为例的一个简单示例，如图 18.9 所示，展示了使用不同数量的 RS 向量对 SVM 决策边界进行近似的结果。
第二阶段：同时优化 RS 向量
- 原理：在计算完所有单个原像后，可进行第二阶段，同时对所有 $(z_i, \theta_i)$ 进行优化。
- 特点：经验表明该阶段计算成本比第一阶段高约两个数量级，数值处理困难，需要多次重启优化以避免陷入局部最小值。结束后建议使用最优展开系数公式重新计算 $\theta_i$。
实验结果
约简集构造方法的实验结果如下表所示，表明该方法比前面的约简集选择方法效果更好，因为它可以在扩展中使用与原始支持模式不同的向量。

digit	0	1	2	3	4	5	6	7	8	9	10 - class
SV - 254	16	13	30	17	32	22	11	12	26	17	4.4%
RSC - 10	26	13	45	49	35	54	22	24	39	24	7.1%
RSC - 20	27	11	38	30	35	43	12	16	30	25	5.6%
RSC - 25	21	12	38	32	31	22	12	18	33	28	5.1%
RSC - 50	18	10	33	28	32	23	12	15	35	27	5.0%
RSC - 100	14	13	26	22	30	26	11	14	28	23	4.8%
RSC - 150	13	14	28	32	27	24	12	14	29	26	4.7%
RSC - 200	14	13	28	28	29	24	10	15	26	26	4.9%
RSC - 250	12	13	26	26	32	25	11	14	26	24	4.6%
RSC2 - 25	14	14	31	22	30	23	11	14	26	17	4.7%

为了加快过程，可以使用具有 25 个 RS 向量的系统（RSC - 25），分类准确率仅从 4.4% 适度下降到 5.1%，与卷积神经网络在该数据库上的表现具有竞争力。通过添加第二阶段的全局梯度下降优化，可进一步提高系统性能，如 RSC2 - 25 的错误率降至 4.7%。

5. 不同方法对比总结

方法	优点	缺点	适用场景
核主成分分析	在高约简率时效果略好	计算复杂度较高，需迭代移除 SV	特征空间维度较高，希望在一定程度上保证近似精度的情况
$l_1$ 惩罚	计算成本低，无需迭代移除 SV		需要快速得到稀疏近似，不太关注特征空间维度的情况
稀疏贪心方法	计算效率高	多数情况下不考虑展开系数，非严格约简集后处理方法	特征空间有效维度低，核矩阵特征值快速衰减的情况
原始重新表述	不再限制系数范围，可能得到更稀疏解	优化问题结构复杂，设计大规模问题算法困难	小规模实际问题，希望突破 SVM 系数限制的情况
支持向量回归	可直接控制约简集扩展大小，解通常更稀疏		需要对决策函数进行稀疏近似，且希望控制扩展大小的情况
迭代原像与第二阶段优化	能使用不同向量扩展，效果好	计算成本高，数值处理困难	对近似精度要求较高，愿意投入计算资源的情况

6. 约简集构造方法流程总结

graph TD;
    A[开始] --> B[进行迭代原像计算];
    B --> C{是否达到指定步数或误差阈值};
    C -- 是 --> D[进行第二阶段优化];
    C -- 否 --> B;
    D --> E[重新计算系数];
    E --> F[结束];

综上所述，不同的约简集选择和构造方法各有优缺点，在实际应用中需要根据具体问题的特点，如数据规模、特征空间维度、计算资源和对近似精度的要求等，选择合适的方法来提高模型的稀疏性和效率。