【Andrew Ng Deep Learning个人学习笔记】 2、神经网络基础(1)

本文深入解析逻辑回归算法,涵盖训练集矩阵构建、参数说明、损失函数与代价函数等内容,旨在帮助读者理解并掌握逻辑回归的基本原理。

构建训练集的矩阵时,使用以下形式:

X=(⋮⋮⋮x(1)x(2)⋯x(m)⋮⋮⋮)X∈Rn×m X = \begin{pmatrix} \vdots & \vdots & & \vdots \\ x^{(1)}& x^{(2)} & \cdots & x^{(m)}\\ \vdots & \vdots & & \vdots \\ \end{pmatrix} X\in R^{n \times m} X=x(1)x(2)x(m)XRn×m
Y=(y(1)y(2)⋯y(m))Y∈R1×m Y= \begin{pmatrix} y^{(1)} & y^{(2)} & \cdots & y^{(m)} \\ \end{pmatrix} Y\in R^{1 \times m} Y=(y(1)y(2)y(m))YR1×m
  
  

逻辑回归(Logistic Regression)

   Given X, y^\hat{y}y^ = P(y = 1 | X)   0 ≤\leq y^\hat{y}y^ ≤\leq 1
   即预测值 y^\hat{y}y^ 为:X条件下, y = 1的概率。
  
  

参数说明(Parameters specification)

   输入的特征向量(Feature Vector)X:  X ∈\in RnxR^{n_x}Rnx , nxn_xnx为特征的数量;
   训练标签(Training Label)Y:  Y ∈\in {0, 1} ;
   权重(Weights)w:  w ∈\in RnxR^{n_x}Rnx ;
   阈值??(Threshold)b:  b ∈\in RRR ;
   输出(Output)y^\hat{y}y^:  y^\hat{y}y^ = σ\sigmaσ(wTw^TwTx + b) ;
   SSS型函数(Sigmoid Function): SSS = σ\sigmaσ(wTw^TwTx + b) = σ\sigmaσ(zzz) = 11+e−z\frac{1}{1+e^{-z}} \quad1+ez1;
   参数向量(Parameter Vector):   Θ\ThetaΘ = (θ0θ1θ2⋮θm) \begin{pmatrix} \theta_0 \\ \theta_1 \\ \theta_2 \\ \vdots \\ \theta_m \\ \end{pmatrix} θ0θ1θ2θm
  
  

损失函数(Loss/Error Function)

  l(y^(i),y(i))=12(y^(i)−y(i))2l(\hat{y}^{(i)}, y^{(i)}) =\frac{1}{2} (\hat{y}^{(i)}- y^{(i)})^2l(y^(i),y(i))=21(y^(i)y(i))2
  一般情况下,我们使用平方误差(Squared Error)来衡量损失函数,但是一个非凸函数,运行梯度下降算法时,很大可能性取到的是局部最优解,而我们想要的是全局最优解,因此一般情况下不使用这种损失函数。
  
一般使用这种形式的损失函数:
  l(y^(i),y(i))=−[y(i)log(y^(i))+(1−y(i))log(1−y^(i))]l(\hat{y}^{(i)}, y^{(i)}) =-[y^{(i)}log(\hat{y}^{(i)}) + (1-y^{(i)})log(1-\hat{y}^{(i)})]l(y^(i),y(i))=[y(i)log(y^(i))+(1y(i))log(1y^(i))]
     ififify^(i)==1:l(y^(i),y(i))=−y(i)log(y^(i))\hat{y}^{(i)}==1: l(\hat{y}^{(i)}, y^{(i)}) =-y^{(i)}log(\hat{y}^{(i)})y^(i)==1:l(y^(i),y(i))=y(i)log(y^(i))
     ififify^(i)==0:l(y^(i),y(i))=−(1−y(i))log(1−y^(i))\hat{y}^{(i)}==0: l(\hat{y}^{(i)}, y^{(i)}) =-(1-y^{(i)})log(1-\hat{y}^{(i)})y^(i)==0:l(y^(i),y(i))=(1y(i))log(1y^(i))
  
  

代价函数(Cost Function)

  J(w,b)=1m∑i=1ml(y^(i),y(i))J(w,b)=\frac{1}{m}\sum_{i=1}^ml(\hat{y}^{(i)}, y^{(i)})J(w,b)=m1i=1ml(y^(i),y(i))
      =−1m∑i=1m[y(i)log(y^(i))+(1−y(i))log(1−y^(i))]=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}log(\hat{y}^{(i)}) + (1-y^{(i)})log(1-\hat{y}^{(i)})]=m1i=1m[y(i)log(y^(i))+(1y(i))log(1y^(i))]
  
  

对比Cost Function与Loss/Error Function

  Loss/Error Function衡量单个训练样本上的表现;Cost Function是Loss Function在整个训练集(Training set)上的平均值。
  
  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值