损失函数 Loss function
在这个分类问题中,我们看到例子中权重值非常差,因为猫分类的得分非常低(-96.8),而狗(437.9)和船(61.95)比较高。
我们将使用损失函数(Loss Function)(有时也叫代价函数Cost Function或目标函数Objective)来衡量我们对结果的不满意程度,损失函数能将这些不满意的程度量化。
直观地讲,当评分函数输出结果与真实结果之间差异越大,损失函数输出越大,反之越小。
多类支持向量机损失 Multiclass Support Vector Machine Loss
SVM的损失函数想要SVM在正确分类上的得分始终比不正确分类上的得分高出一个边界值。
第i个数据中包含图像的像素和代表正确类别的标签
。评分函数输入像素数据,然后通过公式
来计算不同分类类别的分值。这里我们将分值简写为
。比如,针对第j个类别的得分就是第j个元素:
。针对第i个数据的多类SVM的损失函数定义如下:
举例:
假设有3个分类,并且得到了分值。其中第一个类别是正确类别,即
。同时假设
是10。上面的公式是将所有不正确分类(
)加起来,所以我们得到两个部分:
第一个部分结果是0,这是因为[-7-13+10]得到的是负数,经过函数处理后得到0。这一对类别分数和标签的损失值是0,这是因为正确分类的得分13与错误分类的得分-7的差为20,高于边界值10。而SVM只关心差距至少要大于10,更大的差值还是算作损失值为0。
第二个部分计算[11-13+10]得到8。虽然正确分类的得分比不正确分类的得分要高(13>11),但是比10的边界值还是小了,分差只有2,这就是为什么损失值等于8。
简而言之,SVM的损失函数想要正确分类类别的分数比不正确类别分数高,而且至少要高
。如果不满足这点,就开始计算损失值。
我们可以将损失函数的公式稍微改写一下:
其中是权重
的第j行,被变形为列向量。然而,一旦开始考虑更复杂的评分函数
公式,这样做就不是必须的了。
函数,它常被称为折叶损失(hinge loss)。有时候会使用平方折叶损失SVM(即L2-SVM),它使用的是
,将更强烈地惩罚过界的边界值。
多类SVM“想要”正确类别的分类分数比其他不正确分类类别的分数要高,而且至少高出delta的边界值。如果其他分类分数进入了红色的区域,甚至更高,那么就开始计算损失。如果没有这些情况,损失值为0。我们的目标是找到一些权重,它们既能够让训练集中的数据样例满足这些限制,也能让总的损失值尽可能地低。
正则化(Regularization)
上面损失函数有一个问题。假设有一个数据集和一个权重集W能够正确地分类每个数据(即所有的边界都满足,对于所有的i都有)。问题在于这个W并不唯一:可能有很多相似的W都能正确地分类所有的数据。
一个简单的例子:如果W能够正确分类所有数据,即对于每个数据,损失值都是0。那么当时,任何数乘
都能使得损失值为0,因为这个变化将所有分值的大小都均等地扩大了,所以它们之间的绝对差值也扩大了。
举个例子:如果一个正确分类的分值和举例它最近的错误分类的分值的差距是15,对W乘以2将使得差距变成30。
换句话说,我们希望能向某些特定的权重W添加一些偏好,对其他权重则不添加,以此来消除模糊性。
方法是向损失函数增加一个正则化惩罚(regularization penalty)部分。最常用的正则化惩罚是L2范式,L2范式通过对所有参数进行逐元素的平方惩罚来抑制大数值的权重:
上面的表达式中,将中所有元素平方后求和。注意正则化函数不是数据的函数,仅基于权重。
包含正则化惩罚后,就能够给出完整的多类SVM损失函数了,它由两个部分组成:数据损失(data loss),即所有样例的的平均损失,以及正则化损失(regularization loss)。完整公式如下所示:
将其展开完整公式是:
其中,是训练集的数据量。现在正则化惩罚添加到了损失函数里面,并用超参数
来计算其权重。该超参数无法简单确定,需要通过交叉验证来获取。
引入正则化惩罚还带来很多良好的性质,其中最好的性质就是对大数值权重进行惩罚,可以提升其泛化能力,因为这就意味着没有哪个维度能够独自对于整体分值有过大的影响。
举个例子:
假设输入向量,两个权重向量
,
。
两个权重向量都得到同样的内积,但是的L2惩罚是1.0,而
的L2惩罚是0.25。因此,根据L2惩罚来看,
更好,因为它的正则化损失更小。
从直观上来看,这是因为的权重值更小且更分散。既然L2惩罚倾向于更小更分散的权重向量,这就会鼓励分类器最终将所有维度上的特征都用起来,而不是强烈依赖其中少数几个维度。
需要注意的是,和权重不同,偏差没有这样的效果,因为它们并不控制输入维度上的影响强度。因此通常只对权重正则化,而不正则化偏差
。在实际操作中,可发现这一操作的影响可忽略不计。
最后,因为正则化惩罚的存在,不可能在所有的例子中得到0的损失值,这是因为只有当的特殊情况下,才能得到损失值为0。
设置Delta
在绝大多数情况下设为都是安全的。超参数
和
看起来是两个不同的超参数,但实际上他们一起控制同一个权衡:即损失函数中的数据损失和正则化损失之间的权衡。理解这一点的关键是要知道,权重
的大小对于分类分值有直接影响(当然对他们的差异也有直接影响):当我们将
中值缩小,分类分值之间的差异也变小,反之亦然。因此,不同分类分值之间的边界的具体值(比如
或
)从某些角度来看是没意义的,因为权重自己就可以控制差异变大和缩小。也就是说,真正的权衡是我们允许权重能够变大到何种程度(通过正则化强度
来控制)。