实验五 神经网络

该博客介绍了如何利用BP神经网络预测公路运量,涉及数据预处理、神经网络结构、激励函数、损失函数以及训练终止条件。同时,与线性回归方法进行了比较,讨论了各自的优势和局限性。

代码地址Github

实验描述

公路运量主要包括公路客运量和公路货运量两个方面。据研究,某地区的公路运量主要与该地区的人口数量、机动车数量和公路面积有关。表1中给出了某地区20年的公路运量相关数据。
根据相关部门数据,该地区2010年和2011年的人口数量分别为73.39和75.55万人,机动车数量分别为3.9635和4.0975万辆,公路面积将分别为0.9880和1.0268万平方千米。
要求:
(1)请利用BP神经网络预测该地区2010年和2011年的公路客运量和公路货运量。
(2)请利用其他方法预测该地区2010年和2011年的公路客运量和公路货运量,并比较这两种方法的优缺点。

数据处理

训练数据

这里写图片描述

测试数据

这里写图片描述

数据归一化

我们发现,多个特征之间的数据不在一个数量级上,比如人口数量和公路面积,相差比较大,因此得进行数据归一化。

我们采用极大极小值的归一化方法:

这里写图片描述

代码实现

def Norm(dataMat,labels):                                  #归一化数据 

    dataMat_minmax = np.array([dataMat.min(axis=1).T.tolist()[0],dataMat.max(axis=1).T.tolist()[0]]).transpose() #取得最大值和最小值

    dataMat_Norm = ((np.array(dataMat.T)-dataMat_minmax.transpose()[0])/(dataMat_minmax.transpose()[1]-dataMat_minmax.transpose()[0])).transpose() #归一化后的输入数据

    labels_minmax  = np.array([labels.min(axis=1).T.tolist()[0],labels.max(axis=1).T.tolist()[0]]).transpose()  #取得最大值和最小值

    labels_Norm = ((np.array(labels.T).astype(float)-labels_minmax.transpose()[0])/(labels_minmax.transpose()[1]-labels_minmax.transpose()[0])).transpose() #归一化后的输出数据

    return dataMat_Norm,labels_Norm,dataMat_minmax,labels_minmax

具体实现

BP神经网络

神经网络分为输入,隐层与输出层,除了输入层外,其余的每层激活函数均采用 f(x),MLP 容易受到局部极小值与梯度弥散的困扰,一个三层BP网络的网络结构如下所示:

这里写图片描述

激励函数

隐藏层中的人工神经元,也称单元,通常用非线性激励函数,如双曲正切函数和逻辑函数:

log-sigmoid:这里写图片描述

函数图形
这里写图片描述

tan-sigmoid:这里写图片描述

函数图形

这里写图片描述

由于我们之前对数据进行归一化的时候,将数据归一到0-1区间,因此我们可以选用log-sigmoid函数。

代码实现:

def f(x):                                                  #激励函数
    return 1/(1+np.exp(-x))

损失函数

和其他监督模型一样,目标是找到成本函数最小化的权重值,通常,MLP的成本函数是残差平方和的均值,计算公式如下:

这里写图片描述

代码实现:

err = sampleoutnorm - networkout    # sampleoutnorm与networkout都是归一化之后的数值
        sse = sum(sum(err**2))/m

隐含层的选取

在BP神经网络中,输入层和输出层的节点个数都是确定的,而隐含层节点个数不确定,那么应该设置为多少 才合适呢?实际上,隐含层节点个数的多少对神经网络的性能是有影响的,有一个经验公式可以确定隐含层 节点数目,如下

这里写图片描述

其中h为隐含层节点数目,m为输入层节点数目,n为输出层节点数目,a为之间的调节常数。

BP算法原理

反向传播(backpropagation)算法经常用来连接优化算法求解成本函数最小化问题,比如梯度下降法。这个算法名称是反向(back)和传播(propagation)的合成词,是指误差在网络层的流向。理论上,反向传播可以用于训练具有任意层、任意数量隐藏单元的前馈人工神经网络,但是计算能力的实际限制会约束反向传播的能力。

用什么方法最小化损失函数?用随机梯度下降。也就是对每个训练样本都使权重往其负梯度方向变化。现在的任务就是求损失函数对连接权重w的梯度。

前向传播过程

这里写图片描述表示输入层第i个节点到隐层第j个节点的连接权重,这里写图片描述表示隐层第i个节点到输出层第j个节点的连接权重,这里写图片描述表示隐层第j个节点的输入,这里写图片描述表示输出层第j个几点的输入,区别在右上角标,1表示第一层连接权重,2表示第二层连接权重。设L为损失函数, θ(s)=11+es (表示激励函数) 那么有 :
这里写图片描述
由于
这里写图片描述
所以
这里写图片描述

代入前面式子可得
这里写图片描述

由于

这里写图片描述

其中
这里写图片描述

得到
这里写图片描述

现在记
这里写图片描述

则隐层为
这里写图片描述

输出层为
这里写图片描述

反向传播过程
反向传播过程是这样的:输出层每个节点都会得到一个误差e,把e作为输出层反向输入,这时候就像是输出层当输入层一样把误差往回传播,先得到输出层,然后将输出层根据连接权重往隐层传输,即前面的式子:
这里写图片描述

现在再来看第一层权重的梯度:

这里写图片描述

 第二层权重梯度:
 这里写图片描述
 
可以看到一个规律:每个权重的梯度都等于与其相连的前一层节点的输出(这里写图片描述即和这里写图片描述)乘以与其相连的后一层的反向传播的输出(这里写图片描述即和这里写图片描述)。

这样反向传播得到所有的 δ 以后,就可以更新权重了。更直观的BP神经网络的工作过程总结如下:

这里写图片描述

对于单个神经元

这里写图片描述

激励函数为 :
θ(s)=11+es

参数更新公式:
θ(s)=θ(s)(1θ(s))=SOut(1SOut)

训练终止条件

每一轮训练都使用数据集的所有记录,但什么时候停止,停止条件有下面两种:

设置最大迭代次数,比如使用数据集迭代100次后停止训练
计算训练集在网络上的误差,达到一定门限值后停止训练

BP算法的代码实现

程序定义

    maxepochs = 60000   #训练次数
    learnrate = 0.030   #学习率
    errorfinal = 0.65*10**(-3) #误差
    indim = 3          #输入层神经元个数
    outdim = 2         #输出层神经元个数
    hiddenunitnum = 3  #隐含层神经元个数

随机产生权值和偏置

    w1 = 0.5*np.random.rand(hiddenunitnum,indim)-0.1  #8*3
    b1 = 0.5*np.random.rand(hiddenunitnum,1)-0.1      #8*1
    w2 = 0.5*np.random.rand(outdim,hiddenunitnum)-0.1 #8*3
    b2 = 0.5*np.random.rand(outdim,1)-0.1             #8*1

隐含层和输出层的输出

hiddenout = f((np.dot(w1,sampleinnorm).transpose()+b1.transpose())).transpose() #隐含层输出
networkout = (np.dot(w2,hiddenout).transpose()+b2.transpose()).transpose() #输出层输出

误差计算

err = sampleoutnorm - networkout
sse = sum(sum(err**2))/m

误差小于某一精度

if sse < errorfinal:
   break

参数更新

delta2 = err
delta1 = np.dot(w2.transpose(),delta2)*hiddenout*(1-hiddenout)
dw2 = np.dot(delta2,hiddenout.transpose())
db2 = np.dot(delta2,np.ones((samnum,1)))
dw1 = np.dot(delta1,sampleinnorm.transpose())
db1 = np.dot(delta1,np.ones((samnum,1)))
w2 += learnrate*dw2
b2 += learnrate*db2
w1 += learnrate*dw1
b1 += learnrate*db1

完整代码

for i in range(maxepochs):
        hiddenout = f((np.dot(w1,sampleinnorm).transpose()+b1.transpose())).transpose()
        networkout = (np.dot(w2,hiddenout).transpose()+b2.transpose()).transpose()
        err = sampleoutnorm - networkout
        sse = sum(sum(err**2))/m
        errhistory.append(sse)

        if sse < errorfinal:
           break

        delta2 = err
        delta1 = np.dot(w2.transpose(),delta2)*hiddenout*(1-hiddenout)
        dw2 = np.dot(delta2,hiddenout.transpose())
        db2 = np.dot(delta2,np.ones((samnum,1)))
        dw1 = np.dot(delta1,sampleinnorm.transpose())
        db1 = np.dot(delta1,np.ones((samnum,1)))
        w2 += learnrate*dw2
        b2 += learnrate*db2
        w1 += learnrate*dw1
        b1 += learnrate*db1

实验结果

真实值与测试值对比以及误差曲线

这里写图片描述

数据预测

这里写图片描述

使用线性回归算法预测:

我们从图像可以看出,数据具有线性关系。

首先是预测客运量:

使用WeKa求解参数

这里写图片描述

预测2010年客运量: 57267
预测2011年客运量: 56663

预测货运量

使用WeKa求解参数

这里写图片描述

预测2010年货运量: 29559
预测2011年货运量: 30859

预测值比较

这里写图片描述

标准BP神经网络的优点

既能求解非线性问题,又能求解线性问题。

标准BP神经网络的缺陷

(1)容易形成局部极小值而得不到全局最优值。BP神经网络中极小值比较多,所以很容易陷入局部极小值。
(2)训练次数多使得学习效率低,收敛速度慢。
(3)隐含层的选取缺乏理论的指导。
(4)训练时学习新样本有遗忘旧样本的趋势。

线性回归的优点

算法实现比较简单,需要训练的参数比较少。

线性回归的缺点

对于某些非线性问题,线性回归求解出的结果,误差比较大。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机的小粽子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值