【Andrew Ng Deep Learning个人学习笔记】 2、神经网络基础（1）

最新推荐文章于 2026-01-08 20:27:01 发布

原创最新推荐文章于 2026-01-08 20:27:01 发布 · 282 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

深度学习专栏收录该内容

4 篇文章

订阅专栏

本文深入解析逻辑回归算法，涵盖训练集矩阵构建、参数说明、损失函数与代价函数等内容，旨在帮助读者理解并掌握逻辑回归的基本原理。

构建训练集的矩阵时，使用以下形式：

$\begin{pmatrix} \vdots & \vdots & & \vdots \\ x^{(1)}& x^{(2)} & \cdots & x^{(m)}\\ \vdots & \vdots & & \vdots \\ \end{pmatrix} X\in R^{n \times m}$
$\begin{pmatrix} y^{(1)} & y^{(2)} & \cdots & y^{(m)} \\ \end{pmatrix} Y\in R^{1 \times m}$

逻辑回归（Logistic Regression）

Given X, $y^\hat{y}$ = P(y = 1 | X) 0 $≤\leq$ $y^\hat{y}$ $≤\leq$ 1
即预测值 $y^\hat{y}$ 为：X条件下, y = 1的概率。

参数说明（Parameters specification）

输入的特征向量(Feature Vector)X: X $∈\in$ $R^{n_x}$ , $n_x$ 为特征的数量;
训练标签(Training Label)Y: Y $∈\in$ {0， 1} ;
权重(Weights)w: w $∈\in$ $R^{n_x}$ ;
阈值？？(Threshold)b: b $∈\in$ $R$ ;
输出(Output) $y^\hat{y}$ : $y^\hat{y}$ = $σ\sigma$ ( $w^T$ x + b) ;
$S$ 型函数（Sigmoid Function）: $S$ = $σ\sigma$ ( $w^T$ x + b) = $σ\sigma$ ( $z$ ) = $11+e−z\frac{1}{1+e^{-z}} \quad$ ;
参数向量（Parameter Vector）: $Θ\Theta$ = $\begin{pmatrix} \theta_0 \\ \theta_1 \\ \theta_2 \\ \vdots \\ \theta_m \\ \end{pmatrix}$

损失函数（Loss/Error Function）

$l(y^(i),y(i))=12(y^(i)−y(i))2l(\hat{y}^{(i)}, y^{(i)}) =\frac{1}{2} (\hat{y}^{(i)}- y^{(i)})^2$
一般情况下，我们使用平方误差（Squared Error）来衡量损失函数，但是一个非凸函数，运行梯度下降算法时，很大可能性取到的是局部最优解，而我们想要的是全局最优解，因此一般情况下不使用这种损失函数。

一般使用这种形式的损失函数：
$l(y^(i),y(i))=−[y(i)log(y^(i))+(1−y(i))log(1−y^(i))]l(\hat{y}^{(i)}, y^{(i)}) =-[y^{(i)}log(\hat{y}^{(i)}) + (1-y^{(i)})log(1-\hat{y}^{(i)})]$
$i f$ $y^(i)==1:l(y^(i),y(i))=−y(i)log(y^(i))\hat{y}^{(i)}==1: l(\hat{y}^{(i)}, y^{(i)}) =-y^{(i)}log(\hat{y}^{(i)})$
$i f$ $y^(i)==0:l(y^(i),y(i))=−(1−y(i))log(1−y^(i))\hat{y}^{(i)}==0: l(\hat{y}^{(i)}, y^{(i)}) =-(1-y^{(i)})log(1-\hat{y}^{(i)})$

代价函数（Cost Function）

$J(w,b)=1m∑i=1ml(y^(i),y(i))J(w,b)=\frac{1}{m}\sum_{i=1}^ml(\hat{y}^{(i)}, y^{(i)})$
$=−1m∑i=1m[y(i)log(y^(i))+(1−y(i))log(1−y^(i))]=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}log(\hat{y}^{(i)}) + (1-y^{(i)})log(1-\hat{y}^{(i)})]$