为什么交叉熵损失函数值越小分类效果越好？_损失值越小越好吗-优快云博客

本文链接：https://blog.youkuaiyun.com/u014296502/article/details/80184539

本文解析了机器学习中常用的损失函数——平方损失函数与交叉熵损失函数。重点介绍了交叉熵损失函数的由来及其与极大似然估计的关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在学习机器学习过程中，我们经常会用到损失函数来判断模型是否在学习，经常使用的损失函数大多是平方损失函数，与交叉熵损失函数。平方损失函数，我们很容易理解为什么值越小分类效果越好。

L o s s (w) = 1 m \sum i m (y i - y h a t i) 2

$Loss(w)=\frac{1}{m}\sum_{i}^{m}(y_i-y^{hat}_i)^2$
很显然，如果预测的越接近，则loss值越小，这个损失函数基本上没有什么疑问。但是由于这个函数不是凸函数，所以被应用的不多，大多数都是使用交叉熵损失函数。

L o s s (w) = - 1 m \sum i m y i l o g y h a t i + (1 - y i) l o g (1 - y h a t i)

$Loss(w)=-\frac{1}{m}\sum_{i}^{m}y_ilogy_i^{hat}+(1-y_i)log(1-y_i^{hat})$
如果我们同样借助上面的思想，如果预测的越接近，则损失函数越小，很显然这个损失函数满足。但是我相信你绝对不仅仅满足于此，这个损失函数的由来是什么？平方损失很容易想到是两个空间向量的距离，越接近越好。交叉熵损失函数呢？今天就带你进入另一个世界。
此处划重点，交叉熵损失函数来源于参数估计，极大似然估计。
分类属于监督学习，是利用有限的样本，来得到整体的样本分布。以二分类为例，