41、核设计与特征提取:原理、方法与应用

核设计与特征提取详解

核设计与特征提取:原理、方法与应用

1. 核设计概述

核函数的设计在核算法中至关重要,它代表了关于任务的先验知识,其恰当选择对算法的成功起着关键作用。在核设计方面,首先介绍了通用的核构造方法,随后转向考虑特定问题领域特征的更具体方法。

在序列处理和图像识别领域,分别讨论了字符串核和考虑图像局部结构的核。这些局部改进的核在性能上有显著提升,适用于能适当指定特征间乘积子集相对重要性的情况,但会使训练和测试速度按常数因子减慢,该因子取决于所使用特定核的评估成本。此外,还介绍和分析了 Fisher 核方法,该方法设计的核遵循底层生成模型。

2. 核设计问题

以下是一系列与核设计相关的问题:
|问题编号|问题描述|
| ---- | ---- |
|13.1|使用命题 13.2 证明:若 k 是核且 d 为正整数,则 k^d 是核。|
|13.2|证明:若对于所有 n,有 a_n ≥ 0,则式(13.3)定义的核是正定的。|
|13.3|设 z_1, …, z_n 属于某集合,k(x, x’) 是该集合上的函数,证明 k^(2)(x, x’) = ∑ {j = 1}^n k(x, z_j)k(x’, z_j) 是正定的。|
|13.4|证明命题 13.6,提示:将张量积核表示为两个更简单核的乘积,并使用命题 13.2。|
|13.5|证明命题 13.7。|
|13.6|若 k(x_1, x_2, x_1’, x_2’) 是某集合上的核,定义对角投影 k
∆(x, x’) = k(x, x, x’, x’),证明若 k_1 和 k_2 是该集合上的核,则 (k_1 ⊗ k_2) ∆ = k_1k_2 和 (k_1 * k_2) ∆ = k_1 ⊕ k_2,并考虑 ANOVA 核的特殊情况。|
|13.7|证明高斯核作为 R - 卷积的相关性质,即对于多维情况,证明 k_1 ∘ … ∘ k_D(x, x’) = ∏ {d = 1}^D k_d(x_d, x_d’),并在一维高斯核的情况下,证明其卷积是多维高斯核。|
|13.8|证明 ANOVA 核是正定的,可直接从定义证明或证明其是 R - 卷积的特殊情况。|
|13.9|设 ˜Ω 表示某集合的所有有限子集的集合,证明若 k 是该集合上的核,则 ˜k(A, B) = ∑
{x ∈ A, x’ ∈ B} k(x, x’) 是 ˜Ω 上的核。|
|13.10|推广上述问题的构造,允许 ˜Φ(A) = ∑ {x ∈ A} w(x)Φ(x),其中 w 是该集合上的非负函数,考虑 w 仅取值于 {0, 1} 的情况,并讨论与 R - 卷积核的联系。|
|13.11|设 G 是一个群,考虑核 k(g, g’) = h((g’)^(-1)g),其中 h 使 k 为正定函数,证明 h 是 Hermitian 的,即 h(g^(-1)) = h(g);证明 |h(g)| ≤ h(e),其中 e 是群的单位元;证明正定函数的有限乘积仍是正定的;考虑群为 (Ω^N, ⊕) 的特殊情况,构造一个正定核。|
|13.12|设 H 是一个复希尔伯特空间,考虑复值函数 h(g) = ,其中 v 属于 H,U 是 G 在 H 上的酉表示,验证 k(g, g’) = h((g’)^(-1)g) 是 G 上的正定核,证明 Φ : g → U(g)v 是 k 的有效特征映射;反之,对于 G 上的任何正定函数 h,证明可关联一个复希尔伯特空间 H_h、G 在 H_h 上的酉表示 U_h 和一个(循环)单位向量 v_h,使得 h(g) = 成立。|
|13.13|考虑特征映射 Φ(x) = [p(x | c_i) / p(c_i)]
{i = 1}^∞,计算该特征映射诱导的核,并将其解释为概率分布,讨论可以用这种方式表示的分布类型。|
|13.14|证明递归式(13.20)可用于计算式(13.17)。|
|13.15|通过将第 13.3 节描述的思想应用于第 13.2 节描述的核,构造局部字符串核,并讨论其与衰减参数诱导的局部性的关系。|
|13.16|设计一个字符串核,使其仅惩罚“多余”长度,避免长匹配序列对比较贡献小的问题。|
|13.17|尝试将序列处理的思想推广到二维结构,如图像,构造一个根据共同子图像的数量和连续性评估两个图像相似度的核。|
|13.18|已知特征映射 Φ 和 Φ’ 及其对应的正则化算子 ϒ 和 ϒ’,构造对应于 ˜k(x, x’) = <Φ’(Φ(x)), Φ’(Φ(x’))> 的复合正则化算子 ˜ϒ,考虑特殊情况:Φ 是第 13.4.1 节的得分映射,Φ’ 是对 Φ(x) 和 Φ(x’) 应用高斯核得到的映射。|
|13.19|研究在 Fisher 核特征空间中,Tracy - Widom 定律的准确性,已知该空间分布是球形的(但不一定是高斯的)。|

3. 核特征提取简介

将数据隐式映射到高维特征空间的思想在支持向量机中非常有效,使其能够处理复杂的非线性可分的现实问题。自然地,人们会思考这种思想是否能在其他学习领域发挥作用。

核主成分分析(Kernel PCA)是一种基于核的非线性主成分分析方法。通过使用正定核,可以在高维特征空间中高效地计算主成分,这些高维特征空间与输入空间通过某种非线性映射相关。该方法可以嵌入到一个通用的特征提取框架中,这个框架包括经典算法如投影追踪,以及稀疏核特征分析(KFA)等用于高效特征提取的核算法。

4. 经典主成分分析(PCA)回顾

PCA 是一种从可能的高维数据集中提取结构的强大技术。给定一组中心化的观测值 x_i(i = 1, …, m),即 ∑ {i = 1}^m x_i = 0,PCA 通过对角化协方差矩阵 C = (1 / m) ∑ {j = 1}^m x_j x_j^T 来找到主轴。协方差矩阵 C 是正定的,可对角化为具有非负特征值的形式。通过求解特征值方程 λv = Cv(其中 λ ≥ 0 且 v 是非零特征向量),可以得到主成分。

mermaid 流程图如下:

graph TD;
    A[输入中心化观测值 x_i] --> B[计算协方差矩阵 C];
    B --> C[求解特征值方程 λv = Cv];
    C --> D[得到主成分];
5. 核主成分分析(Kernel PCA)
5.1 非线性 PCA 作为特征值问题

考虑一个可能是非线性的映射 Φ : Ω → H,将输入空间 Ω 映射到特征空间 H,特征空间 H 可能具有任意大甚至无限的维度。假设数据在特征空间中是中心化的,即 ∑ {i = 1}^m Φ(x_i) = 0,特征空间中的协方差矩阵为 C = (1 / m) ∑ {j = 1}^m Φ(x_j) Φ(x_j)^T。

需要求解特征值方程 λv = Cv(其中 λ ≥ 0 且 v 是非零特征向量)。所有非零特征值对应的解 v 都位于 Φ(x_1), …, Φ(x_m) 的张成空间中,因此可以考虑一组等价的方程 λ <Φ(x_n), v> = <Φ(x_n), Cv> (n = 1, …, m),并且存在系数 α_i(i = 1, …, m)使得 v = ∑_{i = 1}^m α_i Φ(x_i)。

将这些代入特征值方程,得到关于 m×m 格拉姆矩阵 K_ij = <Φ(x_i), Φ(x_j)> 的特征值问题 mλ α = K α,其中 α 是列向量 (α_1, …, α_m)^T。求解该特征值问题得到非零特征值 λ_1 ≥ λ_2 ≥ … ≥ λ_m 及其对应的特征向量 α_1, …, α_m,对前 p 个非零特征值对应的特征向量进行归一化,使得 = 1(n = 1, …, p)。

对于测试点 x,其在特征空间中的非线性主成分(或特征)为 = ∑ {i = 1}^m α_n^i <Φ(x_i), Φ(x)> = ∑ {i = 1}^m α_n^i k(x_i, x) (n = 1, …, p),其中 k(x_i, x) 是核函数。

实际应用中,为了方便计算,通常假设数据在输入空间中是中心化的,但在特征空间中直接计算均值比较困难。可以通过对格拉姆矩阵进行调整,即 ˜K_ij = (K - 1_m K - K 1_m + 1_m K 1_m)_ij (其中 (1_m)_ij = 1 / m),来实现数据在特征空间中的中心化。基于中心化矩阵 ˜K 的 Kernel PCA 也可以使用更大类别的条件正定矩阵,因为数据中心化使得问题具有平移不变性。

5.2 Kernel PCA 的性质

Kernel PCA 对应于某个高维特征空间中的标准 PCA,因此 PCA 的所有数学和统计性质都适用于 Kernel PCA,只是这些性质是关于特征空间 H 中的点 Φ(x_i)(i = 1, …, m),而不是输入空间中的点。

  • 最优性质
  • 前 q 个主成分(或特征向量上的投影)携带的方差比任何其他 q 个正交方向都多。
  • 用前 q 个主成分表示特征空间中的观测值时,均方近似误差最小。
  • 主成分是不相关的。
  • 在特征空间满足高斯性假设的情况下,前 q 个主成分与输入具有最大的互信息,这强烈依赖于所选择的特定核和数据。

  • 与 SVM 的联系 :对于所有 n = 1, …, p,第 n 个 Kernel PCA 特征提取器(按 1 / √λ_n 缩放)在所有形式为 f(x) = ∑ i α_i k(x_i, x) 的特征提取器中是最优的,即在再生核希尔伯特空间(RKHS)H 中具有最小的权重向量范数 ||v||^2 = ∑ {i, j = 1}^m α_i α_j k(x_i, x_j),同时满足与前 n - 1 个 Kernel PCA 特征提取器正交,并且应用于训练集 x_1, …, x_m 时输出具有单位方差。

  • 特征数量 :与线性 PCA 不同,Kernel PCA 可以提取超过输入维度的主成分数量。当观测值数量 m 超过输入维度 N 时,线性 PCA 最多只能找到 N 个非零特征值,而 Kernel PCA 最多可以找到 m 个非零特征值。

  • 从主成分重建 :标准 PCA 可以通过特征向量基展开从完整的主成分集合中重建原始模式。在 Kernel PCA 中,虽然可以从非线性主成分重建模式在特征空间中的图像,但如果只有近似重建,不能保证能在输入空间中找到重建的精确原像,此时需要进行近似处理。

5.3 与其他方法的比较
  • Hebbian 网络 :从 Oja 的开创性工作开始,提出了许多用于计算主成分的无监督神经网络类型算法。与对角化协方差矩阵的标准方法相比,它们在处理非平稳数据时具有优势。通过使用非线性神经元可以得到这些算法的非线性变体,提取的特征被称为非线性主成分。但这些方法没有 Kernel PCA 那样在与输入空间非线性相关的特征空间中进行标准 PCA 的几何解释,因此更难理解它们具体提取的内容。
  • 自联想多层感知器 :一个具有较小隐藏层的线性感知器,在自联想模式下训练时,隐藏单元的激活形成与 PCA 密切相关的低维表示。通过使用非线性神经元和额外的层可以将其推广到非线性情况。但网络训练需要解决一个困难的非线性优化问题,存在陷入局部极小值的可能性,并且神经网络实现往往存在过拟合的风险。此外,需要事先指定要提取的成分数量。
  • 主曲线方法 :主曲线方法通过迭代估计一条曲线(或曲面)来捕捉数据的结构。数据被投影到由算法确定的曲线上,曲线上的每个点是所有投影到该点的数据点的平均值。可以证明,具有这种性质的唯一直线是主成分,因此主曲线是标准 PCA 的推广。计算主曲线需要解决一个非线性优化问题,并且需要事先指定曲面的维度,即要提取的特征数量。
  • Kernel PCA 的优势 :Kernel PCA 是 PCA 的非线性推广,它在任意大(可能无限)维度的特征空间中执行 PCA,并且当使用核 k(x, x’) = 时,可恢复原始的 PCA 算法。与上述方法相比,Kernel PCA 的主要优势是不涉及非线性优化,本质上是线性代数运算,与标准 PCA 类似。此外,不需要事先指定要提取的成分数量。但与主曲线方法相比,Kernel PCA 在输入空间中更难解释;与神经网络方法相比,如果需要处理大量观测值,会导致矩阵 K 很大,不过可以使用稀疏贪婪方法进行近似计算。

一些其他方法,如局部线性嵌入(LLE)算法和多维缩放(MDS),则限制在训练数据上,旨在仅提供训练数据的低维表示,用于数据可视化等目的。Williams 指出,在仅从训练数据中提取特征的特殊情况下,Kernel PCA 与 MDS 密切相关。在某些情况下,MDS 可以通过使用 RBF 核的 Kernel PCA 来实现,避免了非线性优化。LLE 也可以通过对从局部线性嵌入核计算得到的格拉姆矩阵执行 Kernel PCA 来解决。

6. 通用特征提取框架

Kernel PCA 可以作为一个特殊情况嵌入到一个通用的特征提取框架中。这个框架还包括投影追踪和稀疏核特征分析(KFA)等算法。

  • 投影追踪 :投影追踪是一种寻找数据投影方向的方法,使得投影后的数据具有某种特定的性质,如最大方差或最大非高斯性。它通过迭代优化一个目标函数来找到最优的投影方向。
  • 稀疏核特征分析(KFA) :KFA 是一种用于高效特征提取的核算法。它的目标是在特征空间中找到一组稀疏的特征,这些特征能够很好地表示数据,同时减少特征的数量,提高计算效率。

下面是这个通用特征提取框架的简单流程:
|步骤|描述|
| ---- | ---- |
|1|选择合适的核函数 k(x, x’),将输入数据映射到高维特征空间。|
|2|根据具体的算法(如 Kernel PCA、投影追踪、KFA 等),在特征空间中进行特征提取操作。|
|3|对提取的特征进行评估和选择,保留最有价值的特征。|

mermaid 流程图如下:

graph TD;
    A[输入数据] --> B[选择核函数];
    B --> C[特征提取操作];
    C --> D[特征评估与选择];
    D --> E[输出有价值的特征];
7. 稀疏 KFA 算法

稀疏 KFA 算法在特征提取中具有重要作用,下面详细介绍其相关内容。

7.1 算法概述

稀疏 KFA 旨在找到一组稀疏的特征,使得这些特征在表示数据时具有较高的效率。它通过在特征空间中引入稀疏性约束,减少不必要的特征,从而提高计算效率和模型的泛化能力。

7.2 高效实现

为了实现高效的特征提取,稀疏 KFA 采用了一些特殊的技术。例如,它可以利用核矩阵的稀疏性,减少计算量。同时,通过迭代优化的方法,逐步找到最优的稀疏特征。

7.3 实验验证

通过一些玩具实验可以验证稀疏 KFA 的性能。在实验中,将稀疏 KFA 应用于不同的数据集,观察其在特征提取和数据表示方面的效果。实验结果表明,稀疏 KFA 能够有效地提取有价值的特征,同时减少特征的数量,提高模型的性能。

8. Kernel PCA 实验

为了验证 Kernel PCA 的有效性,进行了相关实验。

8.1 实验设置

选择合适的数据集,如图像数据集或文本数据集。确定核函数的类型,如多项式核、高斯核或 Sigmoid 核。设置实验参数,如主成分的数量 q 等。

8.2 实验结果
  • 方差分析 :实验结果显示,前 q 个主成分携带的方差比其他正交方向多,验证了 Kernel PCA 的最优性质。
  • 重建误差 :用前 q 个主成分表示数据时,均方重建误差最小,进一步证明了 Kernel PCA 的有效性。
  • 特征相关性 :主成分之间是不相关的,这与理论分析一致。

通过这些实验,可以看出 Kernel PCA 在高维数据的特征提取和降维方面具有良好的性能。

9. 总结

核设计和核特征提取在机器学习中具有重要的地位。核设计提供了一种有效的方法来处理非线性问题,通过选择合适的核函数,可以将输入数据映射到高维特征空间,从而使线性算法能够处理非线性数据。

Kernel PCA 作为一种非线性主成分分析方法,在高维特征空间中执行 PCA,具有许多优点,如不需要非线性优化、不需要事先指定要提取的成分数量等。同时,它与其他方法(如 MDS、LLE 等)存在密切的联系,可以在不同的场景中发挥作用。

通用特征提取框架包括投影追踪和稀疏 KFA 等算法,为特征提取提供了更多的选择。稀疏 KFA 在特征提取的效率和稀疏性方面具有优势,能够提高模型的性能。

未来,可以进一步研究核函数的设计和选择方法,以提高核算法的性能。同时,可以探索更多的特征提取算法,结合不同的技术,解决更复杂的实际问题。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值