从0开始学习计算机视觉--Day05--逻辑斯蒂回归-优快云博客

如果在max的基础上将其变为平方项，表面看起来只是更改了一点细节，实际上这将变为另一个损失函数，具体变现为，在图像上看来，会变成类似于二次函数的样子（因为平方相当与其图像根据一个法线翻折了），而从函数来看，平方相当于把错误类别的惩罚项权重扩大了，倾向于令模型生成更严谨的函数。因为损失函数本质上是在量化不同错误的错误程度，而平方的处理相当于会使很多本只有微笑错误的样例被模型理解错有着严重错误。

但是，在一组训练集的数据中，实际上是存在多个符合损失值为0的W的，如果就这样直接训练数据，模型为了满足这个多个W，很可能会给出反直觉的损失函数，这并不是我们想看到的。于是我们在损失公式的后面再加多一个正则化 $\lambda R(W)$ ，lambda是超参数，这样的目的是，使得在使用复杂的函数时，令模型选择更简单的W权重矩阵，使得模型不趋于更复杂，同时这样也能减少过拟合的现象（因为模型可能会为了强行拟合训练数据而采用非常复杂的函数形式）。

除了多分类SVM之外，另一个经常用与图像分类的是逻辑斯蒂回归（softmax classifier）。回顾一下之前SVM的工作过程，我们只是要模型输出了每个类别的一个分数，并要求正确类别的分数要比其他错误类别的高，但实际上我们并没有给出分数过多的解释，只把其当作一个过程变量。而在这里，我们会将其转为概率分布的形式，如下：