对Hinge Loss和CE Loss进行了对比分析,面试按这个回答肯定是没问题的
Hinge loss不仅会在预测不正确时对预测进行惩罚,甚至会在预测正确 但不确定时对预测也进行惩罚。它会严重惩罚严重错误的预测,对正确但不可靠的预测的惩罚要少一些,而只有确实可靠且正确的预测才不会有惩罚。公式为:
标签
y
i
y_i
yi为-1或1,只有当预测正确且
∣
(
h
Θ
(
x
)
)
∣
≥
1
|(h_{Θ}(x))|≥1
∣(hΘ(x))∣≥1时,损失才为0。
例如,如果我们针对特定训练样本的预测概率值为 0.2,但标签为 -1,则我们将受到 1.2 的惩罚;如果我们的预测概率值为 -0.7(标签为-1),我们仍然 产生 0.3 的惩罚,但如果我们预测为-1.1, 则不会产生惩罚。
Hinge Loss与CE Loss之间的主要区别在于,前者试图最大化决策边界和数据点之间的间隔->从而试图确保对每个点进行正确且可靠的分类,一旦满足边界条件,便不再进行进一步优化,更局部一点;而后者更全局一点,其持续在拉高正确分类和拉低错误分类的概率。
举例如下:
如果我们的(未归一化)分数是[10, 8, 8]与[10, -10, -10],则CE Loss会比Hinge Loss要高得多。
两者均可以作为分类的Loss。
