学习总结

最新推荐文章于 2021-10-22 19:11:35 发布

liqing19

最新推荐文章于 2021-10-22 19:11:35 发布

阅读量409

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/liqing19/article/details/78780971

机器学习专栏收录该内容

17 篇文章

订阅专栏

本文深入浅出地介绍了机器学习的基本概念，包括逻辑回归、梯度下降等核心算法，并详细解析了神经网络的工作原理，从单层到多层网络的构建方法，以及如何通过正向和反向传播进行训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1机器学习

1.1 逻辑回归：

分析因变量y取某个值的概率与自变量x的关系，0<y<1,可以理解为实际上是寻找一个以x为变量的函数；

Logistic回归为概率型非线性回归模型，是研究二分类观察结果与一些影响因素之间关系的一种多

变量分析方法。通常的问题是，研究某些因素条件下某个结果是否发生，比如医学中根据病人的一些症状来判断它是

否患有某种病。

在讲解Logistic回归理论之前，我们先从LR分类器说起。LR分类器，即Logistic Regression Classifier。

在分类情形下，经过学习后的LR分类器是一组权值，当测试样本的数据输入时，这组权值与测试数据按

照线性加和得到

这里是每个样本的个特征。

之后按照sigmoid函数的形式求出

由于sigmoid函数的定义域为，值域为，因此最基本的LR分类器适合对两类目标进行分类。

所以Logistic回归最关键的问题就是研究如何求得这组权值。

求权值可以使用梯度下降法、或极大似然估计来做。

1.2 梯度下降法

但是又一个问题引出了，虽然给定一个函数，我们能够根据cost function知道这个函数拟合的好不好，但是毕竟函数有这么多，总不可能一个一个试吧？

因此我们引出了梯度下降：能够找出cost function函数的最小值；

梯度下降原理：将函数比作一座山，我们站在某个山坡上，往四周看，从哪个方向向下走一小步，能够下降的最快；

当然解决问题的方法有很多，梯度下降只是其中一个，还有一种方法叫Normal Equation；

方法：

(1)先确定向下一步的步伐大小，我们称为Learning rate；

(2)任意给定一个初始值：

；

(3)确定一个向下的方向，并向下走预先规定的步伐，并更新

；

(4)当下降的高度小于某个定义的值，则停止下降；

算法：

特点：

(1)初始点不同，获得的最小值也不同，因此梯度下降求得的只是局部最小值；

(2)越接近最小值时，下降速度越慢；

问题：如果初始值就在local minimum的位置，则会如何变化？

答：因为

已经在local minimum位置，所以derivative 肯定是0，因此

不会变化；

如果取到一个正确的值，则cost function应该越来越小；

问题：怎么取

值？

答：随时观察

值，如果cost function变小了，则ok，反之，则再取一个更小的值；

下图就详细的说明了梯度下降的过程：

从上面的图可以看出：初始点不同，获得的最小值也不同，因此梯度下降求得的只是局部最小值；

注意：下降的步伐大小非常重要，因为如果太小，则找到函数最小值的速度就很慢，如果太大，则可能会出现overshoot the minimum的现象；

下图就是overshoot minimum现象：

如果Learning rate取值后发现J function 增长了，则需要减小Learning rate的值；

Integrating with Gradient Descent & Linear Regression

梯度下降能够求出一个函数的最小值；

线性回归需要求出，使得cost function的最小；

因此我们能够对cost function运用梯度下降，即将梯度下降和线性回归进行整合，如下图所示：

梯度下降是通过不停的迭代，而我们比较关注迭代的次数，因为这关系到梯度下降的执行速度，为了减少迭代次数，因此引入了Feature Scaling；

Feature Scaling

此种方法应用于梯度下降，为了加快梯度下降的执行速度；

思想：将各个feature的值标准化，使得取值范围大致都在-1<=x<=1之间；

常用的方法是Mean Normalization，即

或者：

[X-mean(X)]/std(X);

举个实际的例子，

有两个Feature：

(1)size，取值范围0~2000；

(2)#bedroom，取值范围0~5；

则通过feature scaling后，

练习题

我们想要通过期中开始成绩预测期末考试成绩，我们希望得到的方程为：

给定以下训练集：

midterm exam	(midterm exam)2	final exam
89	7921	96
72	5184	74
94	8836	87
69	4761	78

我们想对(midterm exam)^2进行feature scaling，则

经过feature scaling后的值为多少？

max = 8836,min=4761,mean=6675.5，则x=(4761-6675.5)/(8836-4761) = -0.47；

多变量线性回归

前面我们只介绍了单变量的线性回归，即只有一个输入变量，现实世界不可能这么简单，因此此处我们要介绍多变量的线性回归；

举个例子：

房价其实由很多因素决定，比如size、number of bedrooms、number of floors、age of home等，这里我们假设房价由4个因素决定，如下图所示：

我们前面定义过单变量线性回归的模型：

这里我们可以定义出多变量线性回归的模型：

Cost function如下：

如果我们要用梯度下降解决多变量的线性回归，则我们还是可以用传统的梯度下降算法进行计算：

总练习题：

1.我们想要根据一个学生第一年的成绩预测第二年的成绩，x为第一年得到A的数量，y为第二年得到A的数量，给定以下数据集：

x	y
3	4
2	1
4	3
0	1

(1)训练集的个数是多少？ 4个；

(2)J(0,1)的结果是多少？

J(0,1) = 1/(2*4)*[(3-4)^2+(2-1)^2+(4-3)^2+(0-1)^2] = 1/8*(1+1+1+1) = 1/2 = 0.5；

我们也可以通过vectorization的方法快速算出J(0,1)：

1.3 神经网络各层权重、偏差的大小确定方法

每层神经元个数n[i]由神经网络构架者自行确定，每层参数的个数由该层输入的个数n[i-1]，及本层神经元数目n[i]共同确定,权重矩阵大小为[n[i],n[i-1]],偏差b向量大小为[n[i],1].

当输入样本为n时，注意numpy库的传播作用。

深层神经网络其实就是包含更多的隐藏层神经网络。如下图所示，分别列举了逻辑回归、1个隐藏层的神经网络、2个隐藏层的神经网络和5个隐藏层的神经网络它们的模型结构。

这里写图片描述

命名规则上，一般只参考隐藏层个数和输出层。例如，上图中的逻辑回归又叫1 layer NN，1个隐藏层的神经网络叫做2 layer NN，2个隐藏层的神经网络叫做3 layer NN，以此类推。如果是L-layer NN，则包含了L-1个隐藏层，最后的L层是输出层。

下面以一个4层神经网络为例来介绍关于神经网络的一些标记写法。如下图所示，首先，总层数用L表示，L=4。输入层是第0层，输出层是第L层。n[l]表示第l层包含的单元个数，l=0,1,⋯,L。这个模型中，n[0]=nx=3，表示三个输入特征x1,x2,x3。n[1]=5，n[2]=5，n[3]=3，n[4]=n[L]=1。第l层的激活函数输出用a[l]表示，a[l]=g[l](z[l])。W[l]表示第l层的权重，用于计算z[l]。另外，我们把输入x记为a[0]，把输出层y^记为a[L]。