22、支持向量回归器的优化与评估

支持向量回归器的优化与评估

1. 最速上升法

1.1 变量修正计算

最速上升法的主要步骤如下:
1. 利用最速上升法计算工作集中变量的修正值,以使目标函数最大化。
2. 若满足收敛条件,则结束训练;否则,若候选集 V 为空,添加违反 KKT 互补条件的新候选变量,然后返回步骤 2。

子问题优化

设 $\alpha_W$ 是元素为 $\alpha_i$($i \in W$)的向量。根据不同条件,$\alpha_s$ 有不同的表达式:
当 $s \leq M$ 时,$\alpha_s = -\sum_{i\neq s, i = 1}^{M} \alpha_i + \sum_{i = M + 1}^{2M} \alpha_i$;
当 $s > M$ 时,$\alpha_s = \sum_{i = 1}^{M} \alpha_i - \sum_{i\neq s, i = M + 1}^{2M} \alpha_i$。

将上述表达式代入目标函数,可消除对偶问题中的约束条件。这里定义 $W’ = W - {s}$。

由于目标函数是二次的,变量变化 $\Delta\alpha_{W’}$ 引起的目标函数变化 $\Delta Q(\alpha_{W’})$ 为:
$\Delta Q(\alpha_{W’}) = \frac{\partial Q(\alpha_{W’})}{\partial \alpha_{W’}} \Delta\alpha_{W’} + \frac{1}{2} \Delta\alpha_{W’}^T \frac{\partial^2 Q(\alpha_{W’})}{\partial \alpha_{W’}^2} \Delta\alpha_{W’}$。

若 $\frac{\partial^2 Q(\alpha_{W’})}{\partial \alpha_{W’}^2}$ 是正定的,可通过以下公式计算修正值,使 $\Delta Q(\alpha_{W’})$ 最大化:
$\Delta\alpha_{W’} = - \left(\frac{\partial^2 Q(\alpha_{W’})}{\partial \alpha_{W’}^2}\right)^{-1} \frac{\partial Q(\alpha_{W’})}{\partial \alpha_{W’}}$。

对于 L1 支持向量回归器:
$\frac{\partial Q(\alpha_{W’})}{\partial \alpha_i} = p_i {y_{i^ } - y_{s^ } - \varepsilon (p_i + q) - \sum_{j = 1}^{M} (\alpha_j - \alpha_{M + j}) (H_{ij} - H_{sj})}$,其中 $i, s \in {1, \ldots, 2M}$。
$i^ $、$p_i$ 和 $q$ 的定义如下:
$i^
= \begin{cases} i, & i \leq M \ i - M, & i > M \end{cases}$
$p_i = \begin{cases} +1, & i \leq M \ -1, & i > M \end{cases}$
$q = \begin{cases} -1, & s \leq M \ +1, & s > M \end{cases}$
$\frac{\partial^2 Q(\alpha_{W’})}{\partial \alpha_i \partial \alpha_j} = -p_i p_j (H_{ij} + H_{ss} - H_{is} - H_{js})$,其中 $i, j, s \in {1, \ldots, 2M}$。

对于 L2 支持向量回归器:
$\frac{\partial Q(\alpha_{W’})}{\partial \alpha_i} = p_i {y_{i^ } - y_{s^ } - \varepsilon (p_i + q) - \sum_{j = 1}^{M} (\alpha_j - \alpha_{M + j}) (H_{ij} - H_{sj}) - \frac{1}{C} (\alpha_{i^ } - \alpha_{M + i^ } - \alpha_{s^ } + \alpha_{M + s^ })}$,其中 $i, s \in {1, \ldots, 2M}$。
$\frac{\partial^2 Q(\alpha_{W’})}{\partial \alpha_i \partial \alpha_j} = -p_i p_j (H_{ij} + H_{ss} - H_{is} - H_{js}) - \frac{1}{C} (\delta_{ij} + p_i p_j)$,其中 $i, j, s \in {1, \ldots, 2M}$。

为了加速求解,可通过 Cholesky 分解将 $\frac{\partial^2 Q(\alpha_{W’})}{\partial \alpha_{W’}^2}$ 分解为上下三角矩阵。若 Hessian 矩阵非正定,Cholesky 分解会停止,此时只对已分解的变量求解,并从工作集中删除相关变量。对于 L2 支持向量回归器,由于 Hessian 矩阵是正定的,无需此步骤。

$\alpha_s$ 的修正值计算如下:
当 $s \leq M$ 时,$\Delta\alpha_s = - \sum_{i \in W’, i \leq M} \Delta\alpha_i + \sum_{i \in W’, i > M} \Delta\alpha_i$;
当 $s > M$ 时,$\Delta\alpha_s = \sum_{i \in W’, i \leq M} \Delta\alpha_i - \sum_{i \in W’, i > M} \Delta\alpha_i$。

对于 L1 支持向量回归器,计算得到的解可能不满足约束条件。当存在无法修正的变量时,将这些变量从工作集中移除,然后对缩减后的工作集重新求解。

假设得到了能对工作集中所有变量进行修正的解,需调整修正值,使所有更新后的变量处于 $[0, C]$ 范围内。
$\Delta\alpha_i’ = \begin{cases} C - \alpha_{i}^{old}, & \alpha_{i}^{old} + \Delta\alpha_i > C \ -\alpha_{i}^{old}, & \alpha_{i}^{old} + \Delta\alpha_i < 0 \ \Delta\alpha_i, & \text{otherwise} \end{cases}$
计算最小修正比例:
$r = \min_{i \in W} \frac{\Delta\alpha_i’}{\Delta\alpha_i}$
更新变量:
$\alpha_{i}^{new} = \alpha_{i}^{old} + r \Delta\alpha_i$

对于 L2 支持向量回归器,计算修正值时无需考虑 $\alpha_i$ 的上界 $C$。

1.2 收敛检查

更新工作集中的变量后,需检查是否结束训练。当候选集 V 为空时,检查是否存在违反 KKT 互补条件的变量,若不存在则终止训练。为加速训练,若目标函数的增加量非常小,可认为解已足够接近最优解。当连续 $N$ 次迭代满足以下不等式时,结束训练:
$\frac{Q_n - Q_{n - 1}}{Q_{n - 1}} < \eta$,其中 $\eta$ 是一个小的正参数。

2. 候选集选择

2.1 不精确 KKT 条件

L1 支持向量回归器的 KKT 条件如下:
$\begin{cases} \alpha_i = C, \alpha_{M + i} = 0, & y_i - f(x_i) > \varepsilon \ 0 < \alpha_i < C, \alpha_{M + i} = 0, & y_i - f(x_i) = \varepsilon \ \alpha_i = 0, \alpha_{M + i} = 0, & |y_i - f(x_i)| \leq \varepsilon \ \alpha_i = 0, 0 < \alpha_{M + i} < C, & y_i - f(x_i) = -\varepsilon \ \alpha_i = 0, \alpha_{M + i} = C, & y_i - f(x_i) < -\varepsilon \end{cases}$

L2 支持向量回归器的 KKT 条件如下:
$\begin{cases} \alpha_i > 0, \alpha_{M + i} = 0, & y_i - f(x_i) = \varepsilon + \frac{\alpha_i}{C} \ \alpha_i = 0, \alpha_{M + i} = 0, & |y_i - f(x_i)| \leq \varepsilon \ \alpha_i = 0, \alpha_{M + i} > 0, & y_i - f(x_i) = -\varepsilon - \frac{\alpha_{M + i}}{C} \end{cases}$

在检查 KKT 条件时,需计算 $f(x_i)$ 的值,但由于对偶问题中不包含偏置项 $b$,训练期间该值是不精确的。对于 L1 支持向量回归器,$\alpha_i$ 有上下界;对于 L2 支持向量回归器,$\alpha_i$ 有下界。若 $\alpha_i$ 有界,下一次迭代中该变量被修改的可能性较小,因此优先选择无界变量。

2.2 精确 KKT 条件

定义 $F_i = y_i - \sum_{j = 1}^{M} (\alpha_j - \alpha_{M + j}) H_{ij}$,其中 $H_{ij} = H(x_i, x_j)$。

KKT 条件可分为以下五种情况:
1. $0 < \alpha_i < C$,$F_i - b = \varepsilon$。
2. $0 < \alpha_{M + i} < C$,$F_i - b = -\varepsilon$。
3. $\alpha_i = \alpha_{M + i} = 0$,$-\varepsilon \leq F_i - b \leq \varepsilon$。
4. $\alpha_{M + i} = C$,$F_i - b \leq -\varepsilon$。
5. $\alpha_i = C$,$F_i - b \geq \varepsilon$。

定义 $\tilde{F} i$ 和 $\bar{F}_i$:
$\tilde{F}_i = \begin{cases} F_i - \varepsilon, & 0 < \alpha_i < C \text{ or } \alpha_i = \alpha
{M + i} = 0 \ F_i + \varepsilon, & 0 < \alpha_{M + i} < C \text{ or } \alpha_{M + i} = C \end{cases}$
$\bar{F} i = \begin{cases} F_i - \varepsilon, & 0 < \alpha_i < C \text{ or } \alpha_i = C \ F_i + \varepsilon, & 0 < \alpha {M + i} < C \text{ or } \alpha_i = \alpha_{M + i} = 0 \end{cases}$

KKT 条件简化为:
$\bar{F}_i \geq b \geq \tilde{F}_i$,其中 $i = 1, \ldots, M$。

定义 $b_{low} = \max_i \tilde{F} i$,$b {up} = \min_i \bar{F} i$。若 KKT 条件不满足,则 $b {up} < b_{low}$。当 $b_{up} < \tilde{F} i - \tau$ 或 $b {low} > \bar{F}_i + \tau$ 时,数据 $i$ 违反 KKT 条件,其中 $\tau$ 是一个正参数,用于放宽 KKT 条件。通过这种方式,无需计算 $b$ 即可检测出违反 KKT 条件的变量。

对于 L2 支持向量回归器:
$\tilde{F} i = \begin{cases} F_i - \varepsilon, & \alpha_i = \alpha {M + i} = 0 \ F_i - \varepsilon - \frac{\alpha_i}{C}, & \alpha_i > 0, \alpha_{M + i} = 0 \ F_i + \varepsilon + \frac{\alpha_i}{C}, & \alpha_i = 0, \alpha_{M + i} > 0 \end{cases}$
$\bar{F} i = \begin{cases} F_i + \varepsilon, & \alpha_i = \alpha {M + i} = 0 \ F_i - \varepsilon - \frac{\alpha_i}{C}, & \alpha_i > 0, \alpha_{M + i} = 0 \ F_i + \varepsilon + \frac{\alpha_{M + i}}{C}, & \alpha_i = 0, \alpha_{M + i} > 0 \end{cases}$

其余步骤与 L1 支持向量回归器相同。

2.3 违反变量的选择

违反程度随着 $\tilde{F} i$ 增大和 $\bar{F}_i$ 减小而增大。候选集选择的步骤如下:
1. 将 $\bar{F}_i$ 按升序排序,$\tilde{F}_k$ 按降序排序,设置 $i = 1$,$k = 1$。
2. 比较 $\tilde{F}_i$ 与 $b
{up}$ 的值,若违反 KKT 条件,将 $i$ 添加到候选集 V 中,并将 $i$ 加 1。
3. 比较 $\bar{F} k$ 与 $b {low}$ 的值,若违反 KKT 条件,将 $i$ 添加到候选集 V 中,并将 $k$ 加 1。
4. 重复步骤 2 和 3,交替选择 $\tilde{F}_i$ 和 $\bar{F}_k$ 的违反数据,直到没有违反数据为止。
5. 将候选集 V 中的索引按违反程度降序移动到工作集 W 中。

对于函数逼近,对于 $x_i$ 有两个变量 $\alpha_i$ 和 $\alpha_{M + i}$。在最速上升训练中,根据以下条件选择变量:若一个为零,另一个非零,则选择非零变量;若两个都为零,评估误差,若 $y_i - f(x_i) > 0$,选择 $\alpha_i$,否则选择 $\alpha_{M + i}$。估计 $f(x_i)$ 时,使用 $b = \frac{b_{up} + b_{low}}{2}$。

3. 支持向量回归器的变体

3.1 线性规划支持向量回归器

定义近似函数的对偶形式:
$D(x) = \sum_{i = 1}^{M} \alpha_i H(x, x_i) + b$,其中 $\alpha_i$ 取实值。
考虑最小化:
$Q(\alpha, b, \xi) = \sum_{i = 1}^{M} (|\alpha_i| + C (\xi_i + \xi_i^ ))$
约束条件为:
$-\varepsilon - \xi_j^
\leq \sum_{i = 1}^{M} \alpha_i H(x_j, x_i) + b - y_j \leq \varepsilon + \xi_j$,其中 $j = 1, \ldots, M$。

令 $\alpha_i = \alpha_i^+ - \alpha_i^-$,$b = b^+ - b^-$,其中 $\alpha_i^+$、$\alpha_i^-$、$b^+$ 和 $b^-$ 为非负,可通过线性规划求解 $\alpha$、$b$ 和 $\xi$。对于大规模问题,可使用分解技术。

另一种线性规划支持向量回归器的形式为:最小化 $\sum_{i = 1}^{m} |w_i|$,约束条件为 $|g^T w - y| \leq \varepsilon$。使用 RBF 核时,$g$ 的元素为 $\exp(-\gamma |x - x’|^2)$,其中 $x’$ 是训练数据。这种形式的优点是可以为每个训练数据放置多个基函数。

3.2 $\nu$-支持向量回归器

通常难以设置最优的 $\varepsilon$ 值。一种方法是假设 $\varepsilon$ 与噪声的标准差成比例来估计其值,另一种方法是修改模型,使其在训练过程中可优化。

Schölkopf 等人提出引入参数 $\nu$ 来控制支持向量回归器的精度。最小化:
$Q(w, b, \xi, \xi^ , \varepsilon) = \frac{1}{2} |w|^2 + C \left(\nu \varepsilon + \frac{1}{M} \sum_{i = 1}^{M} (\xi_i + \xi_i^ )\right)$
约束条件为:
$y_i - w^T g(x_i) - b \leq \varepsilon + \xi_i$,其中 $i = 1, \ldots, M$。
$w^T g(x_i) + b - y_i \leq \varepsilon + \xi_i^ $,其中 $i = 1, \ldots, M$。
$\xi_i \geq 0$,$\xi_i^
\geq 0$,其中 $i = 1, \ldots, M$。

引入拉格朗日乘子 $\alpha_i$、$\alpha_i^ $、$\eta_i$、$\eta_i^ $ 和 $\beta (\geq 0)$,将原约束问题转化为无约束问题:
$Q(w, b, \beta, \xi, \xi^ , \varepsilon, \alpha, \alpha^ , \eta, \eta^ ) = \frac{1}{2} |w|^2 + C \nu \varepsilon + \frac{1}{M} C \sum_{i = 1}^{M} (\xi_i + \xi_i^ ) - \sum_{i = 1}^{M} \alpha_i (\varepsilon + \xi_i - y_i + w^T g(x_i) + b) - \sum_{i = 1}^{M} \alpha_i^ (\varepsilon + \xi_i^ + y_i - w^T g(x_i) - b) - \beta \varepsilon - \sum_{i = 1}^{M} (\eta_i \xi_i + \eta_i^ \xi_i^ )$

令关于原变量的导数为零,得到:
$w = \sum_{i = 1}^{M} (\alpha_i - \alpha_i^ ) g(x_i)$
$C \nu - \sum_{i = 1}^{M} (\alpha_i + \alpha_i^
) - \beta = 0$
$\sum_{i = 1}^{M} (\alpha_i - \alpha_i^ ) = 0$
$\alpha_i + \eta_i = \frac{C}{M}$,其中 $i = 1, \ldots, M$。
$\alpha_i^
+ \eta_i^* = \frac{C}{M}$,其中 $i = 1, \ldots, M$。

对偶问题为:
最大化:
$Q(\alpha, \alpha^ ) = -\frac{1}{2} \sum_{i, j = 1}^{M} (\alpha_i - \alpha_i^ ) (\alpha_j - \alpha_j^ ) H(x_i, x_j) + \sum_{i = 1}^{M} y_i (\alpha_i - \alpha_i^ )$
约束条件为:
$\sum_{i = 1}^{M} (\alpha_i - \alpha_i^ ) = 0$
$0 \leq \alpha_i \leq \frac{C}{M}$,$0 \leq \alpha_i^
\leq \frac{C}{M}$,其中 $i = 1, \ldots, M$。
$\sum_{i = 1}^{M} (\alpha_i + \alpha_i^*) \leq C \nu$

当 $\nu > 1$ 时,解与 $\nu = 1$ 时相同。假设得到的 $\varepsilon > 0$,则有:
$\frac{\text{Number of errors}}{M} \leq \nu \leq \frac{\text{Number of support vectors}}{M}$

3.3 最小二乘支持向量回归器

Suykens 提出了用于函数逼近的最小二乘支持向量机,将原支持向量回归器中的不等式约束转化为等式约束。
考虑确定函数:
$y(x) = w^T g(x) + b$
最小化:
$\frac{1}{2} w^T w + \frac{C}{2} \sum_{i = 1}^{M} \xi_i^2$
约束条件为:
$y_i = w^T g(x_i) + b + \xi_i$,其中 $i = 1, \ldots, M$。

引入拉格朗日乘子 $\alpha_i$,得到无约束目标函数:
$Q(w, b, \alpha, \xi) = \frac{1}{2} w^T w + \frac{C}{2} \sum_{i = 1}^{M} \xi_i^2 - \sum_{i = 1}^{M} \alpha_i (w^T g(x_i) + b + \xi_i - y_i)$

令关于 $w$、$b$、$\alpha$ 和 $\xi$ 的偏导数为零,得到最优条件:
$w = \sum_{i = 1}^{M} \alpha_i g(x_i)$
$\sum_{i = 1}^{M} \alpha_i = 0$
$w^T g(x_i) + b + \xi_i - y_i = 0$
$\alpha_i = C \xi_i$,其中 $i = 1, \ldots, M$。

将上述条件代入矩阵形式,得到:
$\begin{bmatrix} \Omega & 1 \ 1^T & 0 \end{bmatrix} \begin{bmatrix} \alpha \ b \end{bmatrix} = \begin{bmatrix} y \ 0 \end{bmatrix}$
其中 ${ \Omega_{ij} } = g^T (x_i) g(x_j) + \frac{\delta_{ij}}{C}$,$\delta_{ij} = \begin{cases} 1, & i = j \ 0, & i \neq j \end{cases}$,$y = (y_1, \ldots, y_M)$,$1 = (1, \ldots, 1)^T$。

选择满足 Mercer 条件的 $H(x, x’) = g^T (x) g(x’)$,可避免显式处理特征空间。得到的近似函数为:
$y(x) = \sum_{i = 1}^{M} \alpha_i H(x, x_i) + b$

原最小化问题通过求解线性方程组得到 $\alpha$ 和 $b$。由于系数矩阵的最后一个对角元素为零,矩阵是半正定的。通过将不等式约束转化为等式约束,支持向量机的训练简化为求解线性方程组,而不是二次规划问题。但这种形式不能保证 $\alpha$ 的稀疏性。为避免此问题,可对 $\alpha_i$ 绝对值较小的数据进行剪枝。首先使用所有训练数据求解方程组,然后按绝对值对 $\alpha_i$ 排序,删除一部分训练数据集(如 5%),从绝对值最小的数据开始,然后对缩减后的训练数据集重新求解方程组,迭代此过程,直到用户定义的性能指标不下降为止。

4. 性能评估

4.1 评估条件

使用水净化厂的噪声数据和无噪声的 Mackey-Glass 数据评估 L1 和 L2 支持向量回归器的性能。对于 Mackey-Glass 数据,使用 NRMSE 测量性能。若未特别说明,使用 $\varepsilon = 0.01$ 和 $C = 10000$。除训练数据外,还人工生成异常值,评估估计的鲁棒性。

对于水净化厂数据,由于非平稳数据数量过少,大部分评估仅使用平稳数据。通过训练和测试数据的平均和最大估计误差评估性能。若未特别说明,使用 $\varepsilon = 1$ 和 $C = 1000$。

使用线性核、$d = 3$ 的多项式核和 $\gamma = 10$ 的 RBF 核。

设置 $\eta = 10^{-10}$,若连续 10 次满足 $\frac{Q_n - Q_{n - 1}}{Q_{n - 1}} < \eta$,则停止训练。使用 AthlonMP2000+ 个人计算机在 Linux 系统下进行实验。

评估内容包括:
1. 最速上升法中工作集大小对训练时间的影响。
2. L1 和 L2 支持向量回归器的性能差异。
3. 不精确和精确 KKT 条件下的收敛差异。
4. 几种估计方法的性能差异。
5. 支持向量回归器对异常值的鲁棒性。

4.2 评估流程

graph TD;
    A[数据准备] --> B[选择核函数];
    B --> C[设置参数];
    C --> D[训练模型];
    D --> E[收敛检查];
    E --> F{是否收敛};
    F -- 是 --> G[性能评估];
    F -- 否 --> D;
    G --> H[分析结果];

4.3 不同评估内容的总结

评估内容 描述
工作集大小对训练时间的影响 研究最速上升法中工作集大小与训练时间的关系
L1 和 L2 支持向量回归器的性能差异 比较两种回归器的性能
不精确和精确 KKT 条件下的收敛差异 分析不同 KKT 条件对收敛速度的影响
几种估计方法的性能差异 对比不同估计方法的性能
支持向量回归器对异常值的鲁棒性 评估回归器在存在异常值时的性能

通过以上评估,可以全面了解支持向量回归器的性能,并根据具体需求选择合适的回归器和参数。

4.4 工作集大小对训练时间的影响

在最速上升法中,工作集大小对训练时间有着显著的影响。工作集是指在优化过程中被考虑进行变量修正的一组变量。当工作集较小时,每次迭代需要处理的变量数量较少,计算量相对较小,因此每次迭代的时间较短。然而,由于每次只对少量变量进行修正,可能需要更多的迭代次数才能达到收敛条件,从而导致总的训练时间较长。

相反,当工作集较大时,每次迭代可以对更多的变量进行修正,有可能更快地接近最优解,减少迭代次数。但同时,每次迭代的计算量也会增加,因为需要处理更多的变量和更复杂的矩阵运算。如果工作集过大,可能会导致计算资源的过度消耗,甚至可能出现内存不足的问题。

为了研究工作集大小与训练时间的关系,可以进行一系列实验。在实验中,固定其他参数不变,逐渐改变工作集的大小,记录每次实验的训练时间。通过分析实验数据,可以得到工作集大小与训练时间的曲线,从而找到一个合适的工作集大小,使得训练时间最短。

4.5 L1 和 L2 支持向量回归器的性能差异

L1 和 L2 支持向量回归器在性能上存在一些差异。L1 支持向量回归器对异常值具有较好的鲁棒性,因为它在优化过程中会倾向于选择稀疏的解,即只有少数变量的系数不为零。这使得 L1 回归器在处理包含异常值的数据时,能够减少异常值对模型的影响。

L2 支持向量回归器则更注重整体的拟合效果,它会尽量使所有数据点到回归超平面的距离之和最小。因此,L2 回归器在处理没有明显异常值的数据时,通常能够得到更好的拟合效果。

在评估两种回归器的性能时,可以使用多种指标,如均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)等。通过比较这些指标在不同数据集上的表现,可以判断哪种回归器更适合特定的应用场景。

4.6 不精确和精确 KKT 条件下的收敛差异

不精确 KKT 条件在检查时由于对偶问题中不包含偏置项 $b$,导致 $f(x_i)$ 的值不精确。这种不精确性可能会使得收敛过程变得不稳定,需要更多的迭代次数才能达到收敛条件。在某些情况下,甚至可能会出现收敛到局部最优解而不是全局最优解的情况。

精确 KKT 条件通过引入辅助变量 $\tilde{F}_i$ 和 $\bar{F}_i$,避免了直接计算 $b$,从而能够更准确地检测违反 KKT 条件的变量。使用精确 KKT 条件可以使收敛过程更加稳定,减少迭代次数,更快地接近最优解。

为了验证不精确和精确 KKT 条件下的收敛差异,可以进行对比实验。在实验中,分别使用不精确和精确 KKT 条件进行训练,记录每次迭代的目标函数值和收敛所需的迭代次数。通过比较实验结果,可以直观地看到两种条件下的收敛速度和稳定性的差异。

4.7 几种估计方法的性能差异

除了 L1 和 L2 支持向量回归器外,还有线性规划支持向量回归器、$\nu$-支持向量回归器和最小二乘支持向量回归器等不同的估计方法。这些方法在性能上也存在差异。

线性规划支持向量回归器通过线性规划求解问题,适用于大规模问题,因为它可以使用分解技术来减少计算量。但它的解可能不够稀疏,需要进一步处理。

$\nu$-支持向量回归器通过引入参数 $\nu$ 来控制 $\varepsilon$ 的值,能够在一定程度上解决 $\varepsilon$ 难以设置的问题。它可以在训练过程中自动调整 $\varepsilon$ 的值,使得模型的精度更加可控。

最小二乘支持向量回归器将不等式约束转化为等式约束,将训练问题简化为求解线性方程组。这种方法的训练速度较快,但不能保证解的稀疏性,需要进行剪枝处理。

在评估这些估计方法的性能时,可以使用相同的数据集和评估指标,比较它们在拟合效果、训练时间、解的稀疏性等方面的表现,从而选择最适合的估计方法。

4.8 支持向量回归器对异常值的鲁棒性

支持向量回归器对异常值的鲁棒性是衡量其性能的重要指标之一。异常值是指数据集中与其他数据点明显不同的点,它们可能是由于测量误差、数据录入错误等原因产生的。

L1 支持向量回归器由于其稀疏性的特点,对异常值具有较好的鲁棒性。它在优化过程中会倾向于忽略异常值,只选择对模型影响较大的支持向量。

L2 支持向量回归器则更注重整体的拟合效果,异常值可能会对其产生较大的影响。为了提高 L2 支持向量回归器对异常值的鲁棒性,可以采用一些预处理方法,如数据标准化、异常值检测和剔除等。

为了评估支持向量回归器对异常值的鲁棒性,可以在数据集中人工添加异常值,然后使用不同的回归器进行训练和评估。通过比较在有异常值和无异常值情况下的性能指标,如 MSE、RMSE 等,可以判断回归器对异常值的鲁棒性。

4.9 综合性能分析

为了更直观地比较不同支持向量回归器和估计方法的性能,可以将各项评估指标进行汇总,形成如下表格:

回归器/方法 工作集大小影响 对异常值鲁棒性 拟合效果 收敛速度 解的稀疏性 训练时间
L1 支持向量回归器 适中 较好 适中 适中
L2 支持向量回归器 适中 一般 适中 一般 适中
线性规划支持向量回归器 可处理大规模 一般 较好 适中 一般 适中
$\nu$-支持向量回归器 适中 适中 适中 适中 适中
最小二乘支持向量回归器 适中 一般 一般

通过综合分析这些指标,可以根据具体的应用场景和需求,选择最合适的支持向量回归器和估计方法。例如,如果数据集中存在较多异常值,且对解的稀疏性有较高要求,可以选择 L1 支持向量回归器;如果需要快速训练模型,且对解的稀疏性要求不高,可以选择最小二乘支持向量回归器。

4.10 性能优化建议

根据上述性能评估和分析,以下是一些性能优化的建议:
1. 选择合适的回归器和估计方法 :根据数据的特点和应用需求,选择最适合的回归器和估计方法。例如,对于包含大量异常值的数据,优先考虑 L1 支持向量回归器;对于需要快速训练的大规模数据,最小二乘支持向量回归器可能是更好的选择。
2. 调整参数 :合理调整参数,如 $\varepsilon$、$C$、$\nu$ 等,可以显著影响模型的性能。可以通过交叉验证等方法,寻找最优的参数组合。
3. 优化工作集大小 :通过实验找到合适的工作集大小,使得训练时间最短。在实际应用中,可以根据数据规模和计算资源的情况,动态调整工作集大小。
4. 处理异常值 :对于包含异常值的数据,可以采用数据预处理方法,如异常值检测和剔除、数据标准化等,提高模型对异常值的鲁棒性。
5. 使用精确 KKT 条件 :在收敛检查时,尽量使用精确 KKT 条件,以提高收敛速度和稳定性。

通过以上优化建议,可以提高支持向量回归器的性能,使其更好地适应各种应用场景。

内容概要:本文介绍了ENVI Deep Learning V1.0的操作教程,重点讲解了如何利用ENVI软件进行深度学习模型的训练应用,以实现遥感图像中特定目标(如集装箱)的自动提取。教程涵盖了从数据准备、标签图像创建、模型初始化训练,到执行分类及结果优化的完整流程,并介绍了精度评价通过ENVI Modeler实现一键化建模的方。系统基于TensorFlow框架,采用ENVINet5(U-Net变体)架构,支持通过点、线、面ROI或分类图生成标签数据,适用于多/高光谱影像的单一类别特征提取。; 适合人群:具备遥感图像处理基础,熟悉ENVI软件操作,从事地理信息、测绘、环境监测等相关领域的技术人员或研究人员,尤其是希望将深度学习技术应用于遥感目标识别的初学者实践者。; 使用场景及目标:①在遥感影像中自动识别和提取特定地物目标(如车辆、建筑、道路、集装箱等);②掌握ENVI环境下深度学习模型的训练流程关键参数设置(如Patch Size、Epochs、Class Weight等);③通过模型调优结果反馈提升分类精度,实现高效自动化信息提取。; 阅读建议:建议结合实际遥感项目边学边练,重点关注标签数据制作、模型参数配置结果后处理环节,充分利用ENVI Modeler进行自动化建模参数优化,同时注意软硬件环境(特别是NVIDIA GPU)的配置要求以保障训练效率。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值