20、基于W - SVM的自我抄袭检测算法详解-优快云博客

本文链接：https://blog.youkuaiyun.com/m5n6o7/article/details/154969205

基于W - SVM的自我抄袭检测算法详解

在机器学习的分类任务中，我们常常会遇到原始支持向量机（SVM）分数难以解释的问题。例如，当γ = 0.0003时，若假设分数范围在[0, 1]，其分数仅显示出适度的类别关联；而当γ = 0.01时，分数超出了原本看似的上下界，变得更难解释。这表明原始SVM分数有界的假设是错误的，并且训练好的模型也没有提供足够信息来明确这些分数的实际含义。在这个例子中，特征向量未变，只是训练时调整了γ参数。因此，我们需要一种更稳定的算法，其输出分数应易于用户解释，且受训练参数变化的影响较小。

1. W - SVM算法概述

W - SVM是一种基于威布尔分布的校准算法，它结合了单类SVM和二分类SVM，且两者都使用非线性核函数。该算法在自我抄袭检测等问题中能帮助我们生成准确的概率估计，主要原因在于它运用了统计极值理论（EVT）。与高斯建模不同，EVT建模能为那些在以分布均值为参考时被认为极不可能发生的事件赋予更现实的概率值。例如，在2008年全球金融危机中，基于正态近似的传统风险模型严重低估了事件发生的概率，而基于EVT的模型则表明该事件是有可能发生的。

2. W - SVM训练流程

W - SVM的训练算法分为单类和二分类两个不同的分类机制，每个机制又包含训练和校准两个阶段，具体流程如下：
- 单类RBF SVM训练 ：训练单类SVM，由于训练数据中没有第二类，核函数定义的原点作为“第二类”的唯一成员。该SVM的目标是找到相对于原点的最佳边界。训练后的二分类函数$f_o$在包含大部分训练数据点的区域取值为 +1，其他区域取值为 -1。在自我抄袭检测中，此模型仅使用抄袭示例进行训练。 <