实验五神经网络

最新推荐文章于 2023-08-06 14:35:47 发布

原创最新推荐文章于 2023-08-06 14:35:47 发布 · 6.8k 阅读

45 ·

CC 4.0 BY-SA版权

-------机器学习专栏收录该内容

6 篇文章

订阅专栏

该博客介绍了如何利用BP神经网络预测公路运量，涉及数据预处理、神经网络结构、激励函数、损失函数以及训练终止条件。同时，与线性回归方法进行了比较，讨论了各自的优势和局限性。

代码地址Github

实验描述

公路运量主要包括公路客运量和公路货运量两个方面。据研究，某地区的公路运量主要与该地区的人口数量、机动车数量和公路面积有关。表1中给出了某地区20年的公路运量相关数据。
根据相关部门数据，该地区2010年和2011年的人口数量分别为73.39和75.55万人，机动车数量分别为3.9635和4.0975万辆，公路面积将分别为0.9880和1.0268万平方千米。
要求：
（1）请利用BP神经网络预测该地区2010年和2011年的公路客运量和公路货运量。
（2）请利用其他方法预测该地区2010年和2011年的公路客运量和公路货运量，并比较这两种方法的优缺点。

数据处理

训练数据

这里写图片描述

测试数据

这里写图片描述

数据归一化

我们发现，多个特征之间的数据不在一个数量级上，比如人口数量和公路面积，相差比较大，因此得进行数据归一化。

我们采用极大极小值的归一化方法：

这里写图片描述

代码实现

def Norm(dataMat,labels):                                  #归一化数据 

    dataMat_minmax = np.array([dataMat.min(axis=1).T.tolist()[0],dataMat.max(axis=1).T.tolist()[0]]).transpose() #取得最大值和最小值

    dataMat_Norm = ((np.array(dataMat.T)-dataMat_minmax.transpose()[0])/(dataMat_minmax.transpose()[1]-dataMat_minmax.transpose()[0])).transpose() #归一化后的输入数据

    labels_minmax  = np.array([labels.min(axis=1).T.tolist()[0],labels.max(axis=1).T.tolist()[0]]).transpose()  #取得最大值和最小值

    labels_Norm = ((np.array(labels.T).astype(float)-labels_minmax.transpose()[0])/(labels_minmax.transpose()[1]-labels_minmax.transpose()[0])).transpose() #归一化后的输出数据

    return dataMat_Norm,labels_Norm,dataMat_minmax,labels_minmax

具体实现

BP神经网络

神经网络分为输入，隐层与输出层，除了输入层外，其余的每层激活函数均采用 f(x)，MLP 容易受到局部极小值与梯度弥散的困扰，一个三层BP网络的网络结构如下所示：

这里写图片描述

激励函数

隐藏层中的人工神经元,也称单元,通常用非线性激励函数,如双曲正切函数和逻辑函数:

log-sigmoid：这里写图片描述

函数图形
这里写图片描述

tan-sigmoid：这里写图片描述

函数图形

这里写图片描述

由于我们之前对数据进行归一化的时候，将数据归一到0-1区间，因此我们可以选用log-sigmoid函数。

代码实现：

def f(x):                                                  #激励函数
    return 1/(1+np.exp(-x))

损失函数

和其他监督模型一样,目标是找到成本函数最小化的权重值,通常,MLP的成本函数是残差平方和的均值,计算公式如下:

这里写图片描述

代码实现：

err = sampleoutnorm - networkout    # sampleoutnorm与networkout都是归一化之后的数值
        sse = sum(sum(err**2))/m

隐含层的选取

在BP神经网络中，输入层和输出层的节点个数都是确定的，而隐含层节点个数不确定，那么应该设置为多少才合适呢？实际上，隐含层节点个数的多少对神经网络的性能是有影响的，有一个经验公式可以确定隐含层节点数目，如下

这里写图片描述

其中h为隐含层节点数目，m为输入层节点数目，n为输出层节点数目，a为之间的调节常数。

BP算法原理

反向传播（backpropagation）算法经常用来连接优化算法求解成本函数最小化问题，比如梯度下降法。这个算法名称是反向（back）和传播（propagation）的合成词，是指误差在网络层的流向。理论上，反向传播可以用于训练具有任意层、任意数量隐藏单元的前馈人工神经网络，但是计算能力的实际限制会约束反向传播的能力。

用什么方法最小化损失函数？用随机梯度下降。也就是对每个训练样本都使权重往其负梯度方向变化。现在的任务就是求损失函数对连接权重w的梯度。

前向传播过程

用这里写图片描述表示输入层第i个节点到隐层第j个节点的连接权重，表示隐层第i个节点到输出层第j个节点的连接权重，表示隐层第j个节点的输入，表示输出层第j个几点的输入，区别在右上角标，1表示第一层连接权重，2表示第二层连接权重。设L为损失函数, $\theta(s) = \frac{1}{1+e^{-s}}$ (表示激励函数) 那么有 :
这里写图片描述
由于

所以

代入前面式子可得
这里写图片描述

由于

这里写图片描述

其中
这里写图片描述

得到
这里写图片描述

现在记
这里写图片描述

则隐层为
这里写图片描述

输出层为
这里写图片描述

反向传播过程
反向传播过程是这样的：输出层每个节点都会得到一个误差e，把e作为输出层反向输入，这时候就像是输出层当输入层一样把误差往回传播，先得到输出层，然后将输出层根据连接权重往隐层传输，即前面的式子：
这里写图片描述

现在再来看第一层权重的梯度：

这里写图片描述

　第二层权重梯度：
　这里写图片描述
　
可以看到一个规律：每个权重的梯度都等于与其相连的前一层节点的输出（即和）乘以与其相连的后一层的反向传播的输出（即和）。

这样反向传播得到所有的 $\delta$ 以后，就可以更新权重了。更直观的BP神经网络的工作过程总结如下：

这里写图片描述

对于单个神经元

这里写图片描述

激励函数为：
$\theta(s) = \frac{1}{1+e^{-s}}$

参数更新公式：
$\theta'(s) =\theta(s)\cdot(1 - \theta(s))=S_{Out}\cdot(1-S_{Out})$

训练终止条件

每一轮训练都使用数据集的所有记录，但什么时候停止，停止条件有下面两种：

设置最大迭代次数，比如使用数据集迭代100次后停止训练
计算训练集在网络上的误差，达到一定门限值后停止训练

BP算法的代码实现

程序定义

    maxepochs = 60000   #训练次数
    learnrate = 0.030   #学习率
    errorfinal = 0.65*10**(-3) #误差
    indim = 3          #输入层神经元个数
    outdim = 2         #输出层神经元个数
    hiddenunitnum = 3  #隐含层神经元个数

随机产生权值和偏置

    w1 = 0.5*np.random.rand(hiddenunitnum,indim)-0.1  #8*3
    b1 = 0.5*np.random.rand(hiddenunitnum,1)-0.1      #8*1
    w2 = 0.5*np.random.rand(outdim,hiddenunitnum)-0.1 #8*3
    b2 = 0.5*np.random.rand(outdim,1)-0.1             #8*1

隐含层和输出层的输出

hiddenout = f((np.dot(w1,sampleinnorm).transpose()+b1.transpose())).transpose() #隐含层输出
networkout = (np.dot(w2,hiddenout).transpose()+b2.transpose()).transpose() #输出层输出

误差计算

err = sampleoutnorm - networkout
sse = sum(sum(err**2))/m

误差小于某一精度

if sse < errorfinal:
   break

参数更新

delta2 = err
delta1 = np.dot(w2.transpose(),delta2)*hiddenout*(1-hiddenout)
dw2 = np.dot(delta2,hiddenout.transpose())
db2 = np.dot(delta2,np.ones((samnum,1)))
dw1 = np.dot(delta1,sampleinnorm.transpose())
db1 = np.dot(delta1,np.ones((samnum,1)))
w2 += learnrate*dw2
b2 += learnrate*db2
w1 += learnrate*dw1
b1 += learnrate*db1

完整代码

for i in range(maxepochs):
        hiddenout = f((np.dot(w1,sampleinnorm).transpose()+b1.transpose())).transpose()
        networkout = (np.dot(w2,hiddenout).transpose()+b2.transpose()).transpose()
        err = sampleoutnorm - networkout
        sse = sum(sum(err**2))/m
        errhistory.append(sse)

        if sse < errorfinal:
           break

        delta2 = err
        delta1 = np.dot(w2.transpose(),delta2)*hiddenout*(1-hiddenout)
        dw2 = np.dot(delta2,hiddenout.transpose())
        db2 = np.dot(delta2,np.ones((samnum,1)))
        dw1 = np.dot(delta1,sampleinnorm.transpose())
        db1 = np.dot(delta1,np.ones((samnum,1)))
        w2 += learnrate*dw2
        b2 += learnrate*db2
        w1 += learnrate*dw1
        b1 += learnrate*db1