核机器技术全面解析
1. 向量核
向量核在机器学习中有着重要的应用。高斯核是一种常见的向量核,其边界和间隔会随着扩散值 ( s^2 ) 的不同而变化。较大的扩散值会得到更平滑的边界。一般情况下,高斯核的表达式为:
[K(x_t, x) = \exp\left(-\frac{D(x_t, x)}{2s^2}\right)]
其中 ( D(x_t, x) ) 是某种距离函数。
此外,还有 sigmoidal 函数形式的核:
[K(x_t, x) = \tanh(2x^T x_t + 1)]
这里的 ( \tanh(\cdot) ) 与 sigmoid 形状相似,但其取值范围在 -1 到 +1 之间,这与多层感知机有相似之处。
2. 自定义核
可以根据具体应用自定义核。核通常被视为相似性的度量,当 ( x ) 和 ( y ) 更“相似”时,( K(x, y) ) 的值更大。我们可以通过合理定义核,将应用的先验知识提供给学习器,这被称为“核工程”。
根据数据的表示方式和相似性度量方法,有多种类型的核,例如:
- 字符串核、树核、图核等 :这些核根据不同的数据表示和相似性度量来定义。
- 文档核示例 :对于两个文档 ( D_1 ) 和 ( D_2 ),可以用它们共有的单词数量作为核。一种表示方法是词袋模型,预先定义 ( M ) 个与应用相关的单词,将 ( \varphi(D_1) ) 定义为 ( M ) 维二进制向量,若第 ( i ) 个单词出现在 ( D_1 ) 中,则第 ( i ) 维为 1,否则为 0。那么
超级会员免费看
订阅专栏 解锁全文
5574

被折叠的 条评论
为什么被折叠?



