【神经网络和深度学习】学习笔记

EJoanW

已于 2023-03-31 00:51:13 修改

阅读量316

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习笔记文章标签：逻辑回归

于 2017-09-06 11:02:56 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_38084653/article/details/77863895

深度学习笔记专栏收录该内容

1 篇文章

订阅专栏

本文介绍了二分分类问题及逻辑回归算法的基本概念。详细解释了如何通过逻辑回归解决二分分类问题，包括损失函数的定义及其最小化过程。同时，文章还探讨了梯度下降法等优化算法的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

神经网络基础

神经网络的计算过程中，通常有一个正向过程（正向传播步骤）计算损失函数，接着会有一个反向过程（反向传播步骤）计算神经网络中损失函数对各参数的梯度，配合优化方法更新参数，降低损失函数。

1. 二分分类

对于二分分类问题，其目标是训练出一个分类器。它以特征向量 $x$ 作为输入，预测输出的结果标签 $y$ （1或者0）。

用 $(x ， y)$ 表示一个单独的样本，其中， $\in {R^{n_x}}$ ， $n_x$ 为特征值的个数， $\in\{0,1\}$ 。训练集（training sets）由 $m$ 个训练样本构成—— ${({x^{(1)}},{y^{(1)}}),({x^{(2)}},{y^{(2)}}),...,({x^{(m)}},{y^{(m)}})\}$ 。

2. 逻辑回归

一种用在输出为0和1的二分分类问题的监督学习中的学习算法。其目标为最小化预测值与训练值之间的误差。

给出特征向量 $\in {R^{n_x}}$ 以及逻辑回归的参数 $\in {R^{n_x}}$ 和b，旨在得出一个预测值 $y^=wTx+b\hat{y} =w^{T}x+b$ （ $y^\hat{y}$ 是一个概率， $y^=P(y=1∣x)\hat{y} =P(y=1|x)$ ）。为使 $0≤y^≤10\leq\hat{y}\leq1$ ，令 $y^=σ（wTx+b）\hat{y} =\sigma（w^{T}x+b）$ ，其中， $σ(z)=11+e−z\sigma(z)=\frac1{1+e^{-z}}$ 。

给出 ${({x^{(1)}},{y^{(1)}}),({x^{(2)}},{y^{(2)}}),...,({x^{(m)}},{y^{(m)}})\}$ ，为了训练参数w和b，使得： $y^(i)≈y(i)\hat{y} ^{(i)}\approx y^{(i)}$ ，需要定义一个损失函数，且使得该损失函数最小。

2.1 Loss（Error）function

被用作衡量单个训练样本的误差。 $L(y^,y)=−[ylog⁡(y^)+(1−y)log⁡(1−y^)]ℒ(\widehat y,y)=-\lbrack y\log(\widehat y)+(1-y)\log(1-\widehat y)\rbrack$

2.2 Cost function

计算整体训练集的平均损失。最终需要找到使 $J (w, b)$ 最小的参 $w$ 和 $b$ 。 $J(w,b)=1m∑i=1mL(y^(i),y(i))=−1m∑i=1m[y(i)log⁡(y^(i))+(1−y(i))log⁡(1−y^(i))](凸函数)J(w,b)=\frac1m\sum_{i=1}^mℒ(\widehat y^{(i)},y^{(i)})=-\frac1m\sum_{i=1}^m\lbrack y^{(i)}\log(\widehat y^{(i)})+(1-y^{(i)})\log(1-\widehat y^{(i)})\rbrack(凸函数)$

使得损失函数最小，获得回归系数的算法有：

梯度下降法
牛顿迭代算法
拟牛顿迭代算法（BFGS算法和L-BFGS算法）

2.3 梯度下降法

为得到最小的损失函数值，对w求偏导，并使其偏导为0，然后用随机梯度下降法求解方程组。梯度下降w的更新过程，走梯度方向的反方向：
$θj:=θj−αδJ(w)δw{\mathrm\theta}_\mathrm j:={\mathrm\theta}_\mathrm j-\mathrm\alpha\frac{\mathrm{δJ}\left(\mathrm w\right)}{\mathrm{δw}}$
$α\alpha$ 代表学习率，学习率可以控制每一次迭代或者梯度下降法中的步长。
其中：
$δδwJ(w)=−1m∑i=1m(y(i)1y^(i)δδwy^(i)−(1−y(i))11−y^(i)δδwy^(i)) \frac{\mathrm\delta}{\mathrm{δw}}\mathrm J\left(\mathrm w\right)=-\frac1{\mathrm m}\sum_{\mathrm i=1}^\mathrm m(\mathrm y^{(\mathrm i)}\frac1{\widehat{\mathrm y}^{(\mathrm i)}}\frac{\mathrm\delta}{\mathrm{δw}}\widehat{\mathrm y}^{(\mathrm i)}-(1-\mathrm y^{(\mathrm i)})\frac1{1-\widehat{\mathrm y}^{(\mathrm i)}}\frac{\mathrm\delta}{\mathrm{δw}}\widehat{\mathrm y}^{(\mathrm i)})$
$=−1m∑i=1m(y(i)1y^(i)−(1−y(i))11−y^(i))δδwσ（wTxi）=-\frac1{\mathrm m}\sum_{\mathrm i=1}^\mathrm m(\mathrm y^{(\mathrm i)}\frac1{\widehat{\mathrm y}^{(\mathrm i)}}-(1-\mathrm y^{(\mathrm i)})\frac1{1-\widehat{\mathrm y}^{(\mathrm i)}})\frac{\mathrm\delta}{\mathrm{δw}}\sigma（w^{T}x^{i}）$
$=−1m∑i=1m[y(i)1y^(i)−(1−y(i))11−y^(i)]σ(wTxi)(1−σ(wTxi))δδwjwTxi=-\frac1{\mathrm m}\sum_{\mathrm i=1}^\mathrm m\lbrack\mathrm y^{(\mathrm i)}\frac1{\widehat{\mathrm y}^{(\mathrm i)}}-(1-\mathrm y^{(\mathrm i)})\frac1{1-\widehat{\mathrm y}^{(\mathrm i)}}\rbrack\mathrm\sigma(\mathrm w^\mathrm T\mathrm x^\mathrm i)(1-\mathrm\sigma(\mathrm w^\mathrm T\mathrm x^\mathrm i))\frac{\mathrm\delta}{{\mathrm{δw}}_\mathrm j}\mathrm w^\mathrm T\mathrm x^\mathrm i$
$=−1m∑i=1m[y(i)(1−σ(wTxi))−(1−y(i))σ(wTxi)]xji=-\frac1{\mathrm m}\sum_{\mathrm i=1}^\mathrm m\lbrack\mathrm y^{(\mathrm i)}(1-\mathrm\sigma(\mathrm w^\mathrm T\mathrm x^\mathrm i))-(1-\mathrm y^{(\mathrm i)})\mathrm\sigma(\mathrm w^\mathrm T\mathrm x^\mathrm i)\rbrack\mathrm x_{{}^\mathrm j}^\mathrm i$
$=−1m∑i=1m[y(i)−σ(wTxi)]xji=-\frac1{\mathrm m}\sum_{\mathrm i=1}^\mathrm m\lbrack\mathrm y^{(\mathrm i)}-\mathrm\sigma(\mathrm w^\mathrm T\mathrm x^\mathrm i)\rbrack\mathrm x_{{}^\mathrm j}^\mathrm i$
$=1m∑i=1m[y^(i)−y(i)]xji=\frac1{\mathrm m}\sum_{\mathrm i=1}^\mathrm m\lbrack\widehat{\mathrm y}^{(\mathrm i)}-\mathrm y^{(\mathrm i)}\rbrack\mathrm x_{{}^\mathrm j}^\mathrm i$
因此，
$θj:=θj−α1m∑i=1m[y^(i)−y(i)]xji\theta_j:=\theta_j-\alpha \frac1{\mathrm m}\sum_{\mathrm i=1}^\mathrm m\lbrack\widehat{\mathrm y}^{(\mathrm i)}-\mathrm y^{(\mathrm i)}\rbrack\mathrm x_{{}^\mathrm j}^\mathrm i$