单类支持向量机:理论、实验与应用
1. 理论分析
1.1 参数与复杂度
从相关公式可知,$k$ 以及公式 (8.35) 的右侧与 $\hat{\nu}$ 成反比,即随 $w$ 增大而增大。这表明可以用 $w$ 的大小衡量估计区域的复杂度,通过最小化 $|w|^2$ 找到泛化能力好的区域。同时,理论建议不使用算法返回的偏移量 $\xi$(对应 $\nu = 0$),而使用更小的值 $\xi - \nu$($\nu > 0$)。
不过,当前形式的定理并非明确确定参数 $\nu$ 和 $\xi$ 的实用方法,存在诸多不精确之处。例如,所用常数 $c$ 远非其最小可能值,且未考虑核函数的平滑性。若考虑核函数平滑性(如使用第 12 章中对诱导函数类覆盖数的精细边界),公式 (8.36) 中的第一项在减小 $\xi$ 时增长会慢得多,第二项不变则意味着存在不同的权衡点。但该定理仍为调整 $\nu$ 和 $\xi$ 参数提供了一定信心。
1.2 算法原理与 Vapnik 原则
此算法符合 Vapnik 原则,即不解决比实际感兴趣问题更通用的问题。在仅关注新奇性检测的情况下,无需估计数据的完整密度模型,因为密度估计在多方面比当前算法更困难。
从数学角度看,只有当基础概率测度具有绝对连续分布函数时,密度才存在。对于估计大量集合测度的一般问题,如 Borel 可测集,是无法解决的。因此,需限制对某些集合测度的描述。给定一小类集合,最简单的估计器是经验测度,它仅查看落入感兴趣区域的训练点数量。而当前算法则相反,先确定应落入区域的训练点数量,再估计具有所需属性的区域。通常存在多个这样的区域,通过应用正则化器(在支持向量机情况下,强
超级会员免费看
订阅专栏 解锁全文
1595

被折叠的 条评论
为什么被折叠?



