感谢原文: https://blog.youkuaiyun.com/tsyccnh/article/details/79163834
总结:
熵用来表示一个随机变量信息量的期望;
相对熵(KL散度) 用来衡量随机变量不同分布之间的差异。在机器学习的分类问题中,P表示标准分类结果,Q表示学习得到的分类结果,那么P和Q之间的相对熵越小,就说明Q的分类效果越好(接近正确结果P)。训练的目的就是获得更加标注的分布Q,使得P,Q之间的交叉熵更小。
交叉熵 实际训练中,对相对熵做一些变形的话,就会发现其中会改变的只是一部分,这一部分成为交叉熵
在机器学习中,线性回归问题往往使用“平方均值误差”作为损失函数,但分类问题却往往使用交叉熵作为损失函数。
至于其原因,可能是交叉熵可以解决非线性问题?