22、支持向量回归器的优化与评估

wine

于 2025-11-13 16:44:34 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏：支持向量机模式分类文章标签：支持向量回归器最速上升法 KKT条件

本文链接：https://blog.youkuaiyun.com/wine/article/details/154895905

支持向量机模式分类专栏收录该内容

25 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

支持向量回归器的优化与评估

1. 最速上升法

1.1 变量修正计算

最速上升法的主要步骤如下：
1. 利用最速上升法计算工作集中变量的修正值，以使目标函数最大化。
2. 若满足收敛条件，则结束训练；否则，若候选集 V 为空，添加违反 KKT 互补条件的新候选变量，然后返回步骤 2。

子问题优化

设 $\alpha_W$ 是元素为 $\alpha_i$（$i \in W$）的向量。根据不同条件，$\alpha_s$ 有不同的表达式：
当 $s \leq M$ 时，$\alpha_s = -\sum_{i\neq s, i = 1}^{M} \alpha_i + \sum_{i = M + 1}^{2M} \alpha_i$；
当 $s > M$ 时，$\alpha_s = \sum_{i = 1}^{M} \alpha_i - \sum_{i\neq s, i = M + 1}^{2M} \alpha_i$。

将上述表达式代入目标函数，可消除对偶问题中的约束条件。这里定义 $W’ = W - {s}$。

由于目标函数是二次的，变量变化 $\Delta\alpha_{W’}$ 引起的目标函数变化 $\Delta Q(\alpha_{W’})$ 为：
$\Delta Q(\alpha_{W’}) = \frac{\partial Q(\alpha_{W’})}{\partial \alpha_{W’}} \Delta\alpha_{W’} + \frac{1}{2} \Delta\alpha_{W’}^T \frac{\partial^2 Q(\alpha_{W’})}{\partial \alpha_{W’}^2} \Delta\alpha_{W’}$。

若 $\frac{\partial^2 Q(\alpha_{W’})}{\partial \alpha_{W’}^2}$ 是正定的，可通过以下公式计算修正值，使 $\Delta Q(\alpha_{W’})$ 最大化：
$\Delta\alpha_{W’} = - \left(\frac{\partial^2 Q(\alpha_{W’})}{\partial \alpha_{W’}^2}\right)^{-1} \frac{\partial Q(\alpha_{W’})}{\partial \alpha_{W’}}$。

对于 L1 支持向量回归器：
$\frac{\partial Q(\alpha_{W’})}{\partial \alpha_i} = p_i {y_{i^ } - y_{s^ } - \varepsilon (p_i + q) - \sum_{j = 1}^{M} (\alpha_j - \alpha_{M + j}) (H_{ij} - H_{sj})}$，其中 $i, s \in {1, \ldots, 2M}$。
$i^ $、$p_i$ 和 $q$ 的定义如下：
$i^ = \begin{cases} i, & i \leq M \ i - M, & i > M \end{cases}$
$p_i = \begin{cases} +1, & i \leq M \ -1, & i > M \end{cases}$
$q = \begin{cases} -1, & s \leq M \ +1, & s > M \end{cases}$
$\frac{\partial^2 Q(\alpha_{W’})}{\partial \alpha_i \partial \alpha_j} = -p_i p_j (H_{ij} + H_{ss} - H_{is} - H_{js})$，其中 $i, j, s \in {1, \ldots, 2M}$。

对于 L2 支持向量回归器：
$\frac{\partial Q(\alpha_{W’})}{\partial \alpha_i} = p_i {y_{i^ } - y_{s^ } - \varepsilon (p_i + q) - \sum_{j = 1}^{M} (\alpha_j - \alpha_{M + j}) (H_{ij} - H_{sj}) - \frac{1}{C} (\alpha_{i^ } - \alpha_{M + i^ } - \alpha_{s^ } + \alpha_{M + s^ })}$，其中 $i, s \in {1, \ldots, 2M}$。
$\frac{\partial^2 Q(\alpha_{W’})}{\partial \alpha_i \partial \alpha_j} = -p_i p_j (H_{ij} + H_{ss} - H_{is} - H_{js}) - \frac{1}{C} (\delta_{ij} + p_i p_j)$，其中 $i, j, s \in {1, \ldots, 2M}$。

为了加速求解，可通过 Cholesky 分解将 $\frac{\partial^2 Q(\alpha_{W’})}{\partial \alpha_{W’}^2}$ 分解为上下三角矩阵。若 Hessian 矩阵非正定，Cholesky 分解会停止，此时只对已分解的变量求解，并从工作集中删除相关变量。对于 L2 支持向量回归器，由于 Hessian 矩阵是正定的，无需此步骤。

$\alpha_s$ 的修正值计算如下：
当 $s \leq M$ 时，$\Delta\alpha_s = - \sum_{i \in W’, i \leq M} \Delta\alpha_i + \sum_{i \in W’, i > M} \Delta\alpha_i$；
当 $s > M$ 时，$\Delta\alpha_s = \sum_{i \in W’, i \leq M} \Delta\alpha_i - \sum_{i \in W’, i > M} \Delta\alpha_i$。

对于 L1 支持向量回归器，计算得到的解可能不满足约束条件。当存在无法修正的变量时，将这些变量从工作集中移除，然后对缩减后的工作集重新求解。

假设得到了能对工作集中所有变量进行修正的解，需调整修正值，使所有更新后的变量处于 $[0, C]$ 范围内。
$\Delta\alpha_i’ = \begin{cases} C - \alpha_{i}^{old}, & \alpha_{i}^{old} + \Delta\alpha_i > C \ -\alpha_{i}^{old}, & \alpha_{i}^{old} + \Delta\alpha_i < 0 \ \Delta\alpha_i, & \text{otherwise} \end{cases}$
计算最小修正比例：
$r = \min_{i \in W} \frac{\Delta\alpha_i’}{\Delta\alpha_i}$
更新变量：
$\alpha_{i}^{new} = \alpha_{i}^{old} + r \Delta\alpha_i$

对于 L2 支持向量回归器，计算修正值时无需考虑 $\alpha_i$ 的上界 $C$。

1.2 收敛检查

更新工作集中的变量后，需检查是否结束训练。当候选集 V 为空时，检查是否存在违反 KKT 互补条件的变量，若不存在则终止训练。为加速训练，若目标函数的增加量非常小，可认为解已足够接近最优解。当连续 $N$ 次迭代满足以下不等式时，结束训练：
$\frac{Q_n - Q_{n - 1}}{Q_{n - 1}} < \eta$，其中 $\eta$ 是一个小的正参数。

2. 候选集选择

2.1 不精确 KKT 条件

L1 支持向量回归器的 KKT 条件如下：
$\begin{cases} \alpha_i = C, \alpha_{M + i} = 0, & y_i - f(x_i) > \varepsilon \ 0 < \alpha_i < C, \alpha_{M + i} = 0, & y_i - f(x_i) = \varepsilon \ \alpha_i = 0, \alpha_{M + i} = 0, & |y_i - f(x_i)| \leq \varepsilon \ \alpha_i = 0, 0 < \alpha_{M + i} < C, & y_i - f(x_i) = -\varepsilon \ \alpha_i = 0, \alpha_{M + i} = C, & y_i - f(x_i) < -\varepsilon \end{cases}$

L2 支持向量回归器的 KKT 条件如下：
$\begin{cases} \alpha_i > 0, \alpha_{M + i} = 0, & y_i - f(x_i) = \varepsilon + \frac{\alpha_i}{C} \ \alpha_i = 0, \alpha_{M + i} = 0, & |y_i - f(x_i)| \leq \varepsilon \ \alpha_i = 0, \alpha_{M + i} > 0, & y_i - f(x_i) = -\varepsilon - \frac{\alpha_{M + i}}{C} \end{cases}$

在检查 KKT 条件时，需计算 $f(x_i)$ 的值，但由于对偶问题中不包含偏置项 $b$，训练期间该值是不精确的。对于 L1 支持向量回归器，$\alpha_i$ 有上下界；对于 L2 支持向量回归器，$\alpha_i$ 有下界。若 $\alpha_i$ 有界，下一次迭代中该变量被修改的可能性较小，因此优先选择无界变量。

2.2 精确 KKT 条件

定义 $F_i = y_i - \sum_{j = 1}^{M} (\alpha_j - \alpha_{M + j}) H_{ij}$，其中 $H_{ij} = H(x_i, x_j)$。

KKT 条件可分为以下五种情况：
1. $0 < \alpha_i < C$，$F_i - b = \varepsilon$。
2. $0 < \alpha_{M + i} < C$，$F_i - b = -\varepsilon$。
3. $\alpha_i = \alpha_{M + i} = 0$，$-\varepsilon \leq F_i - b \leq \varepsilon$。
4. $\alpha_{M + i} = C$，$F_i - b \leq -\varepsilon$。
5. $\alpha_i = C$，$F_i - b \geq \varepsilon$。

定义 $\tilde{F} i$ 和 $\bar{F}_i$：
$\tilde{F}_i = \begin{cases} F_i - \varepsilon, & 0 < \alpha_i < C \text{ or } \alpha_i = \alpha {M + i} = 0 \ F_i + \varepsilon, & 0 < \alpha_{M + i} < C \text{ or } \alpha_{M + i} = C \end{cases}$
$\bar{F} i = \begin{cases} F_i - \varepsilon, & 0 < \alpha_i < C \text{ or } \alpha_i = C \ F_i + \varepsilon, & 0 < \alpha {M + i} < C \text{ or } \alpha_i = \alpha_{M + i} = 0 \end{cases}$

KKT 条件简化为：
$\bar{F}_i \geq b \geq \tilde{F}_i$，其中 $i = 1, \ldots, M$。

定义 $b_{low} = \max_i \tilde{F} i$，$b {up} = \min_i \bar{F} i$。若 KKT 条件不满足，则 $b {up} < b_{low}$。当 $b_{up} < \tilde{F} i - \tau$ 或 $b {low} > \bar{F}_i + \tau$ 时，数据 $i$ 违反 KKT 条件，其中 $\tau$ 是一个正参数，用于放宽 KKT 条件。通过这种方式，无需计算 $b$ 即可检测出违反 KKT 条件的变量。

对于 L2 支持向量回归器：
$\tilde{F} i = \begin{cases} F_i - \varepsilon, & \alpha_i = \alpha {M + i} = 0 \ F_i - \varepsilon - \frac{\alpha_i}{C}, & \alpha_i > 0, \alpha_{M + i} = 0 \ F_i + \varepsilon + \frac{\alpha_i}{C}, & \alpha_i = 0, \alpha_{M + i} > 0 \end{cases}$
$\bar{F} i = \begin{cases} F_i + \varepsilon, & \alpha_i = \alpha {M + i} = 0 \ F_i - \varepsilon - \frac{\alpha_i}{C}, & \alpha_i > 0, \alpha_{M + i} = 0 \ F_i + \varepsilon + \frac{\alpha_{M + i}}{C}, & \alpha_i = 0, \alpha_{M + i} > 0 \end{cases}$

其余步骤与 L1 支持向量回归器相同。

2.3 违反变量的选择

违反程度随着 $\tilde{F} i$ 增大和 $\bar{F}_i$ 减小而增大。候选集选择的步骤如下：
1. 将 $\bar{F}_i$ 按升序排序，$\tilde{F}_k$ 按降序排序，设置 $i = 1$，$k = 1$。
2. 比较 $\tilde{F}_i$ 与 $b {up}$ 的值，若违反 KKT 条件，将 $i$ 添加到候选集 V 中，并将 $i$ 加 1。
3. 比较 $\bar{F} k$ 与 $b {low}$ 的值，若违反 KKT 条件，将 $i$ 添加到候选集 V 中，并将 $k$ 加 1。
4. 重复步骤 2 和 3，交替选择 $\tilde{F}_i$ 和 $\bar{F}_k$ 的违反数据，直到没有违反数据为止。
5. 将候选集 V 中的索引按违反程度降序移动到工作集 W 中。

对于函数逼近，对于 $x_i$ 有两个变量 $\alpha_i$ 和 $\alpha_{M + i}$。在最速上升训练中，根据以下条件选择变量：若一个为零，另一个非零，则选择非零变量；若两个都为零，评估误差，若 $y_i - f(x_i) > 0$，选择 $\alpha_i$，否则选择 $\alpha_{M + i}$。估计 $f(x_i)$ 时，使用 $b = \frac{b_{up} + b_{low}}{2}$。

3. 支持向量回归器的变体

3.1 线性规划支持向量回归器

定义近似函数的对偶形式：
$D(x) = \sum_{i = 1}^{M} \alpha_i H(x, x_i) + b$，其中 $\alpha_i$ 取实值。
考虑最小化：
$Q(\alpha, b, \xi) = \sum_{i = 1}^{M} (|\alpha_i| + C (\xi_i + \xi_i^ ))$
约束条件为：
$-\varepsilon - \xi_j^ \leq \sum_{i = 1}^{M} \alpha_i H(x_j, x_i) + b - y_j \leq \varepsilon + \xi_j$，其中 $j = 1, \ldots, M$。

令 $\alpha_i = \alpha_i^+ - \alpha_i^-$，$b = b^+ - b^-$，其中 $\alpha_i^+$、$\alpha_i^-$、$b^+$ 和 $b^-$ 为非负，可通过线性规划求解 $\alpha$、$b$ 和 $\xi$。对于大规模问题，可使用分解技术。

另一种线性规划支持向量回归器的形式为：最小化 $\sum_{i = 1}^{m} |w_i|$，约束条件为 $|g^T w - y| \leq \varepsilon$。使用 RBF 核时，$g$ 的元素为 $\exp(-\gamma |x - x’|^2)$，其中 $x’$ 是训练数据。这种形式的优点是可以为每个训练数据放置多个基函数。

3.2 $\nu$-支持向量回归器

通常难以设置最优的 $\varepsilon$ 值。一种方法是假设 $\varepsilon$ 与噪声的标准差成比例来估计其值，另一种方法是修改模型，使其在训练过程中可优化。

Schölkopf 等人提出引入参数 $\nu$ 来控制支持向量回归器的精度。最小化：
$Q(w, b, \xi, \xi^ , \varepsilon) = \frac{1}{2} |w|^2 + C \left(\nu \varepsilon + \frac{1}{M} \sum_{i = 1}^{M} (\xi_i + \xi_i^ )\right)$
约束条件为：
$y_i - w^T g(x_i) - b \leq \varepsilon + \xi_i$，其中 $i = 1, \ldots, M$。
$w^T g(x_i) + b - y_i \leq \varepsilon + \xi_i^ $，其中 $i = 1, \ldots, M$。
$\xi_i \geq 0$，$\xi_i^ \geq 0$，其中 $i = 1, \ldots, M$。

引入拉格朗日乘子 $\alpha_i$、$\alpha_i^ $、$\eta_i$、$\eta_i^ $ 和 $\beta (\geq 0)$，将原约束问题转化为无约束问题：
$Q(w, b, \beta, \xi, \xi^ , \varepsilon, \alpha, \alpha^ , \eta, \eta^ ) = \frac{1}{2} |w|^2 + C \nu \varepsilon + \frac{1}{M} C \sum_{i = 1}^{M} (\xi_i + \xi_i^ ) - \sum_{i = 1}^{M} \alpha_i (\varepsilon + \xi_i - y_i + w^T g(x_i) + b) - \sum_{i = 1}^{M} \alpha_i^ (\varepsilon + \xi_i^ + y_i - w^T g(x_i) - b) - \beta \varepsilon - \sum_{i = 1}^{M} (\eta_i \xi_i + \eta_i^ \xi_i^ )$

令关于原变量的导数为零，得到：
$w = \sum_{i = 1}^{M} (\alpha_i - \alpha_i^ ) g(x_i)$
$C \nu - \sum_{i = 1}^{M} (\alpha_i + \alpha_i^ ) - \beta = 0$
$\sum_{i = 1}^{M} (\alpha_i - \alpha_i^ ) = 0$
$\alpha_i + \eta_i = \frac{C}{M}$，其中 $i = 1, \ldots, M$。
$\alpha_i^ + \eta_i^* = \frac{C}{M}$，其中 $i = 1, \ldots, M$。

对偶问题为：
最大化：
$Q(\alpha, \alpha^ ) = -\frac{1}{2} \sum_{i, j = 1}^{M} (\alpha_i - \alpha_i^ ) (\alpha_j - \alpha_j^ ) H(x_i, x_j) + \sum_{i = 1}^{M} y_i (\alpha_i - \alpha_i^ )$
约束条件为：
$\sum_{i = 1}^{M} (\alpha_i - \alpha_i^ ) = 0$
$0 \leq \alpha_i \leq \frac{C}{M}$，$0 \leq \alpha_i^ \leq \frac{C}{M}$，其中 $i = 1, \ldots, M$。
$\sum_{i = 1}^{M} (\alpha_i + \alpha_i^*) \leq C \nu$

当 $\nu > 1$ 时，解与 $\nu = 1$ 时相同。假设得到的 $\varepsilon > 0$，则有：
$\frac{\text{Number of errors}}{M} \leq \nu \leq \frac{\text{Number of support vectors}}{M}$

3.3 最小二乘支持向量回归器

Suykens 提出了用于函数逼近的最小二乘支持向量机，将原支持向量回归器中的不等式约束转化为等式约束。
考虑确定函数：
$y(x) = w^T g(x) + b$
最小化：
$\frac{1}{2} w^T w + \frac{C}{2} \sum_{i = 1}^{M} \xi_i^2$
约束条件为：
$y_i = w^T g(x_i) + b + \xi_i$，其中 $i = 1, \ldots, M$。

引入拉格朗日乘子 $\alpha_i$，得到无约束目标函数：
$Q(w, b, \alpha, \xi) = \frac{1}{2} w^T w + \frac{C}{2} \sum_{i = 1}^{M} \xi_i^2 - \sum_{i = 1}^{M} \alpha_i (w^T g(x_i) + b + \xi_i - y_i)$

令关于 $w$、$b$、$\alpha$ 和 $\xi$ 的偏导数为零，得到最优条件：
$w = \sum_{i = 1}^{M} \alpha_i g(x_i)$
$\sum_{i = 1}^{M} \alpha_i = 0$
$w^T g(x_i) + b + \xi_i - y_i = 0$
$\alpha_i = C \xi_i$，其中 $i = 1, \ldots, M$。

将上述条件代入矩阵形式，得到：
$\begin{bmatrix} \Omega & 1 \ 1^T & 0 \end{bmatrix} \begin{bmatrix} \alpha \ b \end{bmatrix} = \begin{bmatrix} y \ 0 \end{bmatrix}$
其中 ${ \Omega_{ij} } = g^T (x_i) g(x_j) + \frac{\delta_{ij}}{C}$，$\delta_{ij} = \begin{cases} 1, & i = j \ 0, & i \neq j \end{cases}$，$y = (y_1, \ldots, y_M)$，$1 = (1, \ldots, 1)^T$。

选择满足 Mercer 条件的 $H(x, x’) = g^T (x) g(x’)$，可避免显式处理特征空间。得到的近似函数为：
$y(x) = \sum_{i = 1}^{M} \alpha_i H(x, x_i) + b$

原最小化问题通过求解线性方程组得到 $\alpha$ 和 $b$。由于系数矩阵的最后一个对角元素为零，矩阵是半正定的。通过将不等式约束转化为等式约束，支持向量机的训练简化为求解线性方程组，而不是二次规划问题。但这种形式不能保证 $\alpha$ 的稀疏性。为避免此问题，可对 $\alpha_i$ 绝对值较小的数据进行剪枝。首先使用所有训练数据求解方程组，然后按绝对值对 $\alpha_i$ 排序，删除一部分训练数据集（如 5%），从绝对值最小的数据开始，然后对缩减后的训练数据集重新求解方程组，迭代此过程，直到用户定义的性能指标不下降为止。

4. 性能评估

4.1 评估条件

使用水净化厂的噪声数据和无噪声的 Mackey-Glass 数据评估 L1 和 L2 支持向量回归器的性能。对于 Mackey-Glass 数据，使用 NRMSE 测量性能。若未特别说明，使用 $\varepsilon = 0.01$ 和 $C = 10000$。除训练数据外，还人工生成异常值，评估估计的鲁棒性。

对于水净化厂数据，由于非平稳数据数量过少，大部分评估仅使用平稳数据。通过训练和测试数据的平均和最大估计误差评估性能。若未特别说明，使用 $\varepsilon = 1$ 和 $C = 1000$。

使用线性核、$d = 3$ 的多项式核和 $\gamma = 10$ 的 RBF 核。

设置 $\eta = 10^{-10}$，若连续 10 次满足 $\frac{Q_n - Q_{n - 1}}{Q_{n - 1}} < \eta$，则停止训练。使用 AthlonMP2000+ 个人计算机在 Linux 系统下进行实验。

评估内容包括：
1. 最速上升法中工作集大小对训练时间的影响。
2. L1 和 L2 支持向量回归器的性能差异。
3. 不精确和精确 KKT 条件下的收敛差异。
4. 几种估计方法的性能差异。
5. 支持向量回归器对异常值的鲁棒性。

4.2 评估流程

graph TD;
    A[数据准备] --> B[选择核函数];
    B --> C[设置参数];
    C --> D[训练模型];
    D --> E[收敛检查];
    E --> F{是否收敛};
    F -- 是 --> G[性能评估];
    F -- 否 --> D;
    G --> H[分析结果];

4.3 不同评估内容的总结

评估内容	描述
工作集大小对训练时间的影响	研究最速上升法中工作集大小与训练时间的关系
L1 和 L2 支持向量回归器的性能差异	比较两种回归器的性能
不精确和精确 KKT 条件下的收敛差异	分析不同 KKT 条件对收敛速度的影响
几种估计方法的性能差异	对比不同估计方法的性能
支持向量回归器对异常值的鲁棒性	评估回归器在存在异常值时的性能

通过以上评估，可以全面了解支持向量回归器的性能，并根据具体需求选择合适的回归器和参数。

4.4 工作集大小对训练时间的影响

在最速上升法中，工作集大小对训练时间有着显著的影响。工作集是指在优化过程中被考虑进行变量修正的一组变量。当工作集较小时，每次迭代需要处理的变量数量较少，计算量相对较小，因此每次迭代的时间较短。然而，由于每次只对少量变量进行修正，可能需要更多的迭代次数才能达到收敛条件，从而导致总的训练时间较长。

相反，当工作集较大时，每次迭代可以对更多的变量进行修正，有可能更快地接近最优解，减少迭代次数。但同时，每次迭代的计算量也会增加，因为需要处理更多的变量和更复杂的矩阵运算。如果工作集过大，可能会导致计算资源的过度消耗，甚至可能出现内存不足的问题。

为了研究工作集大小与训练时间的关系，可以进行一系列实验。在实验中，固定其他参数不变，逐渐改变工作集的大小，记录每次实验的训练时间。通过分析实验数据，可以得到工作集大小与训练时间的曲线，从而找到一个合适的工作集大小，使得训练时间最短。

4.5 L1 和 L2 支持向量回归器的性能差异

L1 和 L2 支持向量回归器在性能上存在一些差异。L1 支持向量回归器对异常值具有较好的鲁棒性，因为它在优化过程中会倾向于选择稀疏的解，即只有少数变量的系数不为零。这使得 L1 回归器在处理包含异常值的数据时，能够减少异常值对模型的影响。

L2 支持向量回归器则更注重整体的拟合效果，它会尽量使所有数据点到回归超平面的距离之和最小。因此，L2 回归器在处理没有明显异常值的数据时，通常能够得到更好的拟合效果。

在评估两种回归器的性能时，可以使用多种指标，如均方误差（MSE）、均方根误差（RMSE）、平均绝对误差（MAE）等。通过比较这些指标在不同数据集上的表现，可以判断哪种回归器更适合特定的应用场景。

4.6 不精确和精确 KKT 条件下的收敛差异

不精确 KKT 条件在检查时由于对偶问题中不包含偏置项 $b$，导致 $f(x_i)$ 的值不精确。这种不精确性可能会使得收敛过程变得不稳定，需要更多的迭代次数才能达到收敛条件。在某些情况下，甚至可能会出现收敛到局部最优解而不是全局最优解的情况。

精确 KKT 条件通过引入辅助变量 $\tilde{F}_i$ 和 $\bar{F}_i$，避免了直接计算 $b$，从而能够更准确地检测违反 KKT 条件的变量。使用精确 KKT 条件可以使收敛过程更加稳定，减少迭代次数，更快地接近最优解。

为了验证不精确和精确 KKT 条件下的收敛差异，可以进行对比实验。在实验中，分别使用不精确和精确 KKT 条件进行训练，记录每次迭代的目标函数值和收敛所需的迭代次数。通过比较实验结果，可以直观地看到两种条件下的收敛速度和稳定性的差异。

4.7 几种估计方法的性能差异

除了 L1 和 L2 支持向量回归器外，还有线性规划支持向量回归器、$\nu$-支持向量回归器和最小二乘支持向量回归器等不同的估计方法。这些方法在性能上也存在差异。

线性规划支持向量回归器通过线性规划求解问题，适用于大规模问题，因为它可以使用分解技术来减少计算量。但它的解可能不够稀疏，需要进一步处理。

$\nu$-支持向量回归器通过引入参数 $\nu$ 来控制 $\varepsilon$ 的值，能够在一定程度上解决 $\varepsilon$ 难以设置的问题。它可以在训练过程中自动调整 $\varepsilon$ 的值，使得模型的精度更加可控。

最小二乘支持向量回归器将不等式约束转化为等式约束，将训练问题简化为求解线性方程组。这种方法的训练速度较快，但不能保证解的稀疏性，需要进行剪枝处理。

在评估这些估计方法的性能时，可以使用相同的数据集和评估指标，比较它们在拟合效果、训练时间、解的稀疏性等方面的表现，从而选择最适合的估计方法。

4.8 支持向量回归器对异常值的鲁棒性

支持向量回归器对异常值的鲁棒性是衡量其性能的重要指标之一。异常值是指数据集中与其他数据点明显不同的点，它们可能是由于测量误差、数据录入错误等原因产生的。

L1 支持向量回归器由于其稀疏性的特点，对异常值具有较好的鲁棒性。它在优化过程中会倾向于忽略异常值，只选择对模型影响较大的支持向量。

L2 支持向量回归器则更注重整体的拟合效果，异常值可能会对其产生较大的影响。为了提高 L2 支持向量回归器对异常值的鲁棒性，可以采用一些预处理方法，如数据标准化、异常值检测和剔除等。

为了评估支持向量回归器对异常值的鲁棒性，可以在数据集中人工添加异常值，然后使用不同的回归器进行训练和评估。通过比较在有异常值和无异常值情况下的性能指标，如 MSE、RMSE 等，可以判断回归器对异常值的鲁棒性。

4.9 综合性能分析

为了更直观地比较不同支持向量回归器和估计方法的性能，可以将各项评估指标进行汇总，形成如下表格：

回归器/方法	工作集大小影响	对异常值鲁棒性	拟合效果	收敛速度	解的稀疏性	训练时间
L1 支持向量回归器	适中	好	较好	适中	好	适中
L2 支持向量回归器	适中	一般	好	适中	一般	适中
线性规划支持向量回归器	可处理大规模	一般	较好	适中	一般	适中
$\nu$-支持向量回归器	适中	适中	好	适中	适中	适中
最小二乘支持向量回归器	适中	一般	好	快	一般	快

通过综合分析这些指标，可以根据具体的应用场景和需求，选择最合适的支持向量回归器和估计方法。例如，如果数据集中存在较多异常值，且对解的稀疏性有较高要求，可以选择 L1 支持向量回归器；如果需要快速训练模型，且对解的稀疏性要求不高，可以选择最小二乘支持向量回归器。

4.10 性能优化建议

根据上述性能评估和分析，以下是一些性能优化的建议：
1. 选择合适的回归器和估计方法 ：根据数据的特点和应用需求，选择最适合的回归器和估计方法。例如，对于包含大量异常值的数据，优先考虑 L1 支持向量回归器；对于需要快速训练的大规模数据，最小二乘支持向量回归器可能是更好的选择。
2. 调整参数 ：合理调整参数，如 $\varepsilon$、$C$、$\nu$ 等，可以显著影响模型的性能。可以通过交叉验证等方法，寻找最优的参数组合。
3. 优化工作集大小 ：通过实验找到合适的工作集大小，使得训练时间最短。在实际应用中，可以根据数据规模和计算资源的情况，动态调整工作集大小。
4. 处理异常值 ：对于包含异常值的数据，可以采用数据预处理方法，如异常值检测和剔除、数据标准化等，提高模型对异常值的鲁棒性。
5. 使用精确 KKT 条件 ：在收敛检查时，尽量使用精确 KKT 条件，以提高收敛速度和稳定性。

通过以上优化建议，可以提高支持向量回归器的性能，使其更好地适应各种应用场景。