一、回归 VS 分类
回归:估计一个连续值(比如房价)
- 单连续数值输出
- 自然区间 RRR
- 跟真实值的区别作为损失(预测值-真实值)2^22
分类:预测一个离散类别(预测图片里是猫还是狗)
- 通常是多个输出
- 输出 iii 是预测为第 iii 类的置信度
二、从回归到多类分类 —— 均方损失
-
对类别进行一位有效编码(one - hot,独热编码)
-
使用均方损失训练
-
最大值作为预测
选取 iii,使得 oio_ioi 最大化的值作为预测值 yyy^
我们关心的是对正确的类别置信度最大(关心的是置信度的相对大小): -
需要更置信的识别正确类(大余量),确保模型可以将正确类和其他类拉开距离
-
输出匹配概率(非负,和为1)
原本的输出是 [o1,...,on][o_1, ... ,o_n][o1,...,on] 这个向量,想要输出对每个类别的匹配概率:
引入一个操作子:softmaxsoftmaxsoftmax,将 softmaxsoftmaxsoftmax 作用于 ooo 得到 yyy^。
yyy^ 是一个长为 nnn 的向量,但它有我们想要的属性:每个元素都非负,而且和为1 ——> 概率。
-
概率 yyy (真实)和 yyy^ (预测)的区别作为损失
三、Softmax和交叉熵损失
一般来说,我们使用交叉熵(cross-entropy)来衡量两个概率的区别。
- 交叉熵常用来衡量两个概率的区别
ppp 和 qqq 是两个概率
- 将它作为损失(对于 iii 来说, yyy 向量只有 yiy_iyi 为1,所以可以简化为:对于真实类别的预测值取−log-log−log)
可以看出,对于分类问题来讲,我们不关心对于非正确类的预测值,只关心对于正确类的预测值的置信度要多大。
- 其梯度是真实概率和预测概率的区别
四、总结
- SoftmaxSoftmaxSoftmax 回归是一个多类分类模型
- 使用 SoftmaxSoftmaxSoftmax 操作子得到每个类的预测置信度(概率,非负,和为1)
- 使用交叉熵来衡量预测和标号的区别