3、支持向量机快速训练的数据选择策略

支持向量机快速训练的数据选择策略

1. 引言

支持向量机(SVM)在模式识别和机器学习领域广受欢迎,因其坚实的统计基础和出色的泛化性能。然而,训练SVM涉及解决约束二次规划(QP)问题,对于大规模应用,这需要大量内存和漫长的训练时间。但SVM的决策函数仅由一小部分训练数据(支持向量)决定。因此,如何选择可能成为支持向量的训练示例,以减少训练集大小并提高训练速度,成为关键问题。

近期,已有不少关于SVM训练数据选择的研究,如基于邻域属性选择决策边界附近模式的方法、使用k - 均值聚类从训练集中选择模式的方法等。本文将介绍两种新的数据选择方法,并与随机抽样和基于训练示例到期望最优分离超平面距离的数据选择方法进行比较。

2. 相关背景
2.1 大间隔分类器

对于二分类问题,给定训练示例集{(x1, y1), …, (xn, yn)},其中xi ∈ Rd是输入向量,yi ∈ {-1, 1}是相应的类标签,SVM 试图构建一个超平面,以最大间隔分离数据。

若问题线性可分,存在超平面 ⟨w, x⟩ = 0,使得 yi(⟨w, xi⟩ + b) > 0,∀i = 1, …, n。通过缩放 w 和 b,可得到超平面的规范形式 (w, b),满足 yi(⟨w, xi⟩ + b) ≥ 1。此时,两类之间的最小欧几里得距离(即两倍的间隔)为 2/∥w∥。因此,寻找最大间隔分离超平面的问题可表述为:
[
(w^ , b^ ) = \arg\max_{w,b} \frac{2}{|w|^2}
]
约束条件为:
[
y_i(\langle w, x_i\

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值