深度学习之二：神经网络的编程基础_logp 神经网络-优快云博客

本文深入探讨了逻辑回归中损失函数的定义与优化过程，详细解释了如何通过最大似然法寻找最佳参数w和b，以及如何利用对数似然函数进行多样本训练。

2.18 逻辑回归损失函数

逻辑回归

逻辑回归需要预测的结果： $y^=σ(wTx+b)\hat{y}=\sigma\left(w^{T} x+b\right)$ ， $σ\sigma$ 是sigmoid函数。
$σ(z)=σ(wTx+b)=11+e−z\sigma(z)=\sigma\left(w^{T} x+b\right)=\frac{1}{1+e^{-z}}$
约定 $y^=p(y=1∣x)\hat{y}=p(y=1 \mid x)$ （这么做是要将 $y^=p(y=1∣x)\hat{y}=p(y=1 \mid x)$ 看为一个含w,b参数的似然函数，可用最大似然法求w,b）

总得来说就是：要找到一个式子以 $y^，y\hat{y}，y$ 作为自变量，理论上当 $y^=y\hat{y}=y$ 时，该式的值达到最大值（凸函数），然后用该式加负号作为损失函数来训练。当损失函数达到最小值时，预测值 $y^\hat{y}$ 和真值 $y$ 近似相等。
下面就是 $y^=p(y=1∣x)\hat{y}=p(y=1 \mid x)$ 的完整定义：

$y=1:p(y=1∣x)=y^ If y=0:p(y=0∣x)=1−y^\begin{array}{lll}\text { If } & y=1: & p(y =1\mid x)=\hat{y} \\ \text { If } & y=0: & p(y =0\mid x)=1-\hat{y}\end{array}$
由上式可见，当 $y^=y\hat{y}=y$ （ $y$ 只能取0、1，二分类问题）时， $y^=p(y∣x)\hat{y}=p(y \mid x)$ 达到最大值1。
将上式合并为一个式子，如下：
$p(y∣x)=y^y(1−y^)(1−y)p(y \mid x)=\hat{y}^{y}(1-\hat{y})^{(1-y)}$

分别将 $y = 1, y = 0$ 代入，得到的结果分别为 $y^,1−y^\hat{y},1-\hat{y}$ .可见上式就是对 $y^=p(y∣x)\hat{y}=p(y \mid x)$ 定义的完整表达。
对数化简：
$log⁡(p(y∣x))=ylog⁡y^+(1−y)log⁡(1−y^)\log (p(y \mid x))=y \log \hat{y}+(1-y) \log (1-\hat{y})$
其中 $log⁡(p(y∣x))\log(p(y\mid x))$ 就是之前损失函数的负数 $−L(y^,y)-L(\hat{y},y)$ 。其实就是要不断更新w与b，使 $log⁡(p(y∣x))\log(p(y\mid x))$ 达到最大，等价于让损失函数达到最小，其结果就是预测值 $y^\hat{y}$ 不断接近 $y$ ，最终达到近似相等。这是训练单个样本的情况。

而训练多个样本时，可以把这m个样本看成m个随机抽样结果。它们的联合概率就是每个样本概率的乘积。
$set⁡)=∏i=1mP(y(i)∣x(i))P(\text { labels in training } \operatorname{set})=\prod_{i=1}^{m} P\left(y^{(i)} \mid x^{(i)}\right)$
取对数优化：
$)=log⁡∏i=1mP(y(i)∣x(i))=∑i=1mlog⁡P(y(i)∣x(i))=∑i=1m−L(y^(i),y(i))\text {logp}(\text { labels in training set })=\log \prod_{i=1}^{m} P\left(y^{(i)} \mid x^{(i)}\right)=\sum_{i=1}^{m} \log P\left(y^{(i)} \mid x^{(i)}\right)=\sum_{i=1}^{m}-L\left(\hat{y}^{(i)}, y^{(i)}\right)$
如果通过不断迭代，找到一对w，b 使logp达到最大值，等价于使 $∑i=1mL(y^(i),y(i))\sum_{i=1}^{m}L\left(\hat{y}^{(i)}, y^{(i)}\right)$ 达到最小值，那么这一对 w,b 就是logp 的最大似然估计值。