-
通常使用的损失函数——似然函数,为什么要加负对数取做负对数似然函数?
(我以前一直说使用的是交叉熵,现在想想其实并不准确,从参数估计的角度来看,怎么也是似然函数对吧?)原因主要两点:
- 如果假设条件是独立同分布,那么似然函数往往是连乘的形式,这样子求偏导数,不容易;通过取对数的形式将连乘变为求和。
- 概率值是小数,多个连乘的情况下,容易造成下溢
-
负对数似然函数与交叉熵的关联是什么?
似然用来描述已知随机变量输出结果时,未知参数可能取值的概率。
在损失函数这个背景下,似然函数的扩展意义:衡量当前模型参数对于已知样本集的解释情况。如果从多分类的角度来说,也就是,在已知样本最终类别label的情况下,计算以你的预测值predict为参数的观测值的似然度。那如果是如上述黑体所说,你这个观测的模型是什么呢?
显然就是个简单的多项分布。(注意这是有模型的)那什么是多项分布?,阅读参考链接1或者2,从伯努利分布(两点分布)扩展到二项分布扩展到多项分布(从扔硬币到扔骰子)。
单次观测下的多项分布: