支持向量机的主动学习方法解析
1. 置信因子 c 的含义
置信因子 c 用于衡量集合 S 与实际支持向量集的接近程度。其最大值为 1,此时对于所有的 i(i = 1, …, l),$k^+_i = k^-_i$,意味着所有支持向量都靠近类别边界,集合 S 接近实际支持向量集;最小值为 0,当对于所有的 i(i = 1, …, l),$min(k^+_i, k^-_i) = 0$时,集合 S 仅包含内部点,远离实际支持向量集。
从贝叶斯分类规则的角度来看,对于重叠类,支持向量集由误差点和位于决策边界边缘带内的点组成。贝叶斯分类规则表明,在决策边界和误差区域上,每个类别的后验概率相等。$k^+_i / k$ 和 $k^-_i / k$ 分别是类别 +1 和 -1 的后验概率的最近邻估计,因此对于误差点和靠近类别边界的点,它们的值几乎相等。
从版本空间的角度解释,将版本空间分成两个相等部分的点被认为是支持向量的候选点。如果一个点 $s_i$ 的邻域包含相等数量的标签为 +1 和 -1 的示例,那么添加标签为 +1 和 -1 的点 $s_i$ 会分别得到体积相等的版本空间 $V^+$ 和 $V^-$。随着 c 值的增加,$s_i$ 成为候选支持向量的概率也增加。
2. 基于统计查询的支持向量学习算法
2.1 算法流程
该算法通过最小化目标函数,在每一步获得新的支持向量集。新的 q 个点从训练集中使用统计查询策略获得。具体步骤如下:
1. 初始化 :从训练集 A 中随机(无放回)选择 q 个实例的初始起始集 $V_0$,设置 t = 0,$S_0 = SV(V_0)$,并确定
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



