2.2 损失函数：多类SVM

最新推荐文章于 2025-03-18 15:55:16 发布

diyudong4681

最新推荐文章于 2025-03-18 15:55:16 发布

阅读量856

点赞数

文章标签：数据结构与算法人工智能

原文链接：http://www.cnblogs.com/xiaojianliu/articles/10014598.html

版权

损失函数 Loss function

在这个分类问题中，我们看到例子中权重值非常差，因为猫分类的得分非常低（-96.8），而狗（437.9）和船（61.95）比较高。

我们将使用损失函数（Loss Function）（有时也叫代价函数Cost Function或目标函数Objective）来衡量我们对结果的不满意程度，损失函数能将这些不满意的程度量化。

直观地讲，当评分函数输出结果与真实结果之间差异越大，损失函数输出越大，反之越小。

多类支持向量机损失 Multiclass Support Vector Machine Loss

SVM的损失函数想要SVM在正确分类上的得分始终比不正确分类上的得分高出一个边界值 $\Delta$ 。

第i个数据中包含图像 x_i 的像素和代表正确类别的标签 y_i 。评分函数输入像素数据，然后通过公式 f(x_i,W) 来计算不同分类类别的分值。这里我们将分值简写为。比如，针对第j个类别的得分就是第j个元素： s_j=f(x_i,W)_j 。针对第i个数据的多类SVM的损失函数定义如下：

举例：

假设有3个分类，并且得到了分值 s=[13,-7,11] 。其中第一个类别是正确类别，即 y_i=0 。同时假设 $\Delta$ 是10。上面的公式是将所有不正确分类（ $j\not=y_i$ ）加起来，所以我们得到两个部分：

第一个部分结果是0，这是因为[-7-13+10]得到的是负数，经过 max(0,-) 函数处理后得到0。这一对类别分数和标签的损失值是0，这是因为正确分类的得分13与错误分类的得分-7的差为20，高于边界值10。而SVM只关心差距至少要大于10，更大的差值还是算作损失值为0。

第二个部分计算[11-13+10]得到8。虽然正确分类的得分比不正确分类的得分要高（13>11），但是比10的边界值还是小了，分差只有2，这就是为什么损失值等于8。

简而言之，SVM的损失函数想要正确分类类别 y_i 的分数比不正确类别分数高，而且至少要高 $\Delta$ 。如果不满足这点，就开始计算损失值。

我们可以将损失函数的公式稍微改写一下：

其中 w_j 是权重的第j行，被变形为列向量。然而，一旦开始考虑更复杂的评分函数公式，这样做就不是必须的了。

函数，它常被称为折叶损失（hinge loss）。有时候会使用平方折叶损失SVM（即L2-SVM），它使用的是 max(0,-)^2 ，将更强烈地惩罚过界的边界值。

多类SVM“想要”正确类别的分类分数比其他不正确分类类别的分数要高，而且至少高出delta的边界值。如果其他分类分数进入了红色的区域，甚至更高，那么就开始计算损失。如果没有这些情况，损失值为0。我们的目标是找到一些权重，它们既能够让训练集中的数据样例满足这些限制，也能让总的损失值尽可能地低。

正则化（Regularization）

上面损失函数有一个问题。假设有一个数据集和一个权重集W能够正确地分类每个数据（即所有的边界都满足，对于所有的i都有 L_i=0 ）。问题在于这个W并不唯一：可能有很多相似的W都能正确地分类所有的数据。

一个简单的例子：如果W能够正确分类所有数据，即对于每个数据，损失值都是0。那么当 $\lambda>1$ 时，任何数乘 $\lambda W$ 都能使得损失值为0，因为这个变化将所有分值的大小都均等地扩大了，所以它们之间的绝对差值也扩大了。

举个例子：如果一个正确分类的分值和举例它最近的错误分类的分值的差距是15，对W乘以2将使得差距变成30。

换句话说，我们希望能向某些特定的权重W添加一些偏好，对其他权重则不添加，以此来消除模糊性。

方法是向损失函数增加一个正则化惩罚（regularization penalty） R(W) 部分。最常用的正则化惩罚是L2范式，L2范式通过对所有参数进行逐元素的平方惩罚来抑制大数值的权重：

上面的表达式中，将中所有元素平方后求和。注意正则化函数不是数据的函数，仅基于权重。

包含正则化惩罚后，就能够给出完整的多类SVM损失函数了，它由两个部分组成：数据损失（data loss），即所有样例的的平均损失 L_i ，以及正则化损失（regularization loss）。完整公式如下所示：

将其展开完整公式是：

其中，是训练集的数据量。现在正则化惩罚添加到了损失函数里面，并用超参数 $\lambda$ 来计算其权重。该超参数无法简单确定，需要通过交叉验证来获取。

引入正则化惩罚还带来很多良好的性质，其中最好的性质就是对大数值权重进行惩罚，可以提升其泛化能力，因为这就意味着没有哪个维度能够独自对于整体分值有过大的影响。

举个例子：

假设输入向量 x=[1,1,1,1] ，两个权重向量 w_1=[1,0,0,0] ， w_2=[0.25,0.25,0.25,0.25] 。

两个权重向量都得到同样的内积，但是 w_1 的L2惩罚是1.0，而 w_2 的L2惩罚是0.25。因此，根据L2惩罚来看， w_2 更好，因为它的正则化损失更小。

从直观上来看，这是因为 w_2 的权重值更小且更分散。既然L2惩罚倾向于更小更分散的权重向量，这就会鼓励分类器最终将所有维度上的特征都用起来，而不是强烈依赖其中少数几个维度。

需要注意的是，和权重不同，偏差没有这样的效果，因为它们并不控制输入维度上的影响强度。因此通常只对权重正则化，而不正则化偏差。在实际操作中，可发现这一操作的影响可忽略不计。

最后，因为正则化惩罚的存在，不可能在所有的例子中得到0的损失值，这是因为只有当 W=0 的特殊情况下，才能得到损失值为0。

设置Delta

在绝大多数情况下设为 $\Delta=1.0$ 都是安全的。超参数 $\Delta$ 和 $\lambda$ 看起来是两个不同的超参数，但实际上他们一起控制同一个权衡：即损失函数中的数据损失和正则化损失之间的权衡。理解这一点的关键是要知道，权重的大小对于分类分值有直接影响（当然对他们的差异也有直接影响）：当我们将中值缩小，分类分值之间的差异也变小，反之亦然。因此，不同分类分值之间的边界的具体值（比如 $\Delta=1$ 或 $\Delta=100$ ）从某些角度来看是没意义的，因为权重自己就可以控制差异变大和缩小。也就是说，真正的权衡是我们允许权重能够变大到何种程度（通过正则化强度 $\lambda$ 来控制）。