作者:LogM
本文原载于 https://segmentfault.com/u/logm/articles ,不允许转载~
本文为旧博客文章,数学公式显示异常,请至 https://segmentfault.com/a/1190000019635885 查看。
1. 第一种方式
用极大似然估计法推导。
设:
$$\pi(x) = P(Y=1|x)$$
$$1-\pi(x) = P(Y=0|x)$$
所以,对于训练集 $T=\{(x_1,y_1), (x_2,y_2), ..., (x_N,y_N)\}$ 有似然函数:
$$\prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$$
化成对数形式:
$$L(w) = \sum_{i=1}^{N}[y_i log (\pi(x_i))+(1-y_i)log(1-\pi(x_i))]$$
就是我们熟悉的交叉熵。
2. 第二种方式
从信息论角度推导。
2.1 信息熵
一个事件 $x$ 发生的概率为 $p(x)$,其发生时携带的信息量为:
$$I(x) = -log(p(x))$$
我们把信息量的期望叫做"熵":