代码地址Github
实验描述
公路运量主要包括公路客运量和公路货运量两个方面。据研究,某地区的公路运量主要与该地区的人口数量、机动车数量和公路面积有关。表1中给出了某地区20年的公路运量相关数据。
根据相关部门数据,该地区2010年和2011年的人口数量分别为73.39和75.55万人,机动车数量分别为3.9635和4.0975万辆,公路面积将分别为0.9880和1.0268万平方千米。
要求:
(1)请利用BP神经网络预测该地区2010年和2011年的公路客运量和公路货运量。
(2)请利用其他方法预测该地区2010年和2011年的公路客运量和公路货运量,并比较这两种方法的优缺点。
数据处理
训练数据
测试数据
数据归一化
我们发现,多个特征之间的数据不在一个数量级上,比如人口数量和公路面积,相差比较大,因此得进行数据归一化。
我们采用极大极小值的归一化方法:
代码实现
def Norm(dataMat,labels): #归一化数据
dataMat_minmax = np.array([dataMat.min(axis=1).T.tolist()[0],dataMat.max(axis=1).T.tolist()[0]]).transpose() #取得最大值和最小值
dataMat_Norm = ((np.array(dataMat.T)-dataMat_minmax.transpose()[0])/(dataMat_minmax.transpose()[1]-dataMat_minmax.transpose()[0])).transpose() #归一化后的输入数据
labels_minmax = np.array([labels.min(axis=1).T.tolist()[0],labels.max(axis=1).T.tolist()[0]]).transpose() #取得最大值和最小值
labels_Norm = ((np.array(labels.T).astype(float)-labels_minmax.transpose()[0])/(labels_minmax.transpose()[1]-labels_minmax.transpose()[0])).transpose() #归一化后的输出数据
return dataMat_Norm,labels_Norm,dataMat_minmax,labels_minmax
具体实现
BP神经网络
神经网络分为输入,隐层与输出层,除了输入层外,其余的每层激活函数均采用 f(x),MLP 容易受到局部极小值与梯度弥散的困扰,一个三层BP网络的网络结构如下所示:
激励函数
隐藏层中的人工神经元,也称单元,通常用非线性激励函数,如双曲正切函数和逻辑函数:
log-sigmoid:
函数图形
tan-sigmoid:
函数图形
由于我们之前对数据进行归一化的时候,将数据归一到0-1区间,因此我们可以选用log-sigmoid函数。
代码实现:
def f(x): #激励函数
return 1/(1+np.exp(-x))
损失函数
和其他监督模型一样,目标是找到成本函数最小化的权重值,通常,MLP的成本函数是残差平方和的均值,计算公式如下:
代码实现:
err = sampleoutnorm - networkout # sampleoutnorm与networkout都是归一化之后的数值
sse = sum(sum(err**2))/m
隐含层的选取
在BP神经网络中,输入层和输出层的节点个数都是确定的,而隐含层节点个数不确定,那么应该设置为多少 才合适呢?实际上,隐含层节点个数的多少对神经网络的性能是有影响的,有一个经验公式可以确定隐含层 节点数目,如下
其中h为隐含层节点数目,m为输入层节点数目,n为输出层节点数目,a为之间的调节常数。
BP算法原理
反向传播(backpropagation)算法经常用来连接优化算法求解成本函数最小化问题,比如梯度下降法。这个算法名称是反向(back)和传播(propagation)的合成词,是指误差在网络层的流向。理论上,反向传播可以用于训练具有任意层、任意数量隐藏单元的前馈人工神经网络,但是计算能力的实际限制会约束反向传播的能力。
用什么方法最小化损失函数?用随机梯度下降。也就是对每个训练样本都使权重往其负梯度方向变化。现在的任务就是求损失函数对连接权重w的梯度。
前向传播过程
用表示输入层第i个节点到隐层第j个节点的连接权重,
表示隐层第i个节点到输出层第j个节点的连接权重,
表示隐层第j个节点的输入,
表示输出层第j个几点的输入,区别在右上角标,1表示第一层连接权重,2表示第二层连接权重。设L为损失函数,
θ(s)=11+e−s
(表示激励函数) 那么有 :
由于
所以
代入前面式子可得
由于
其中
得到
现在记
则隐层为
输出层为
反向传播过程
反向传播过程是这样的:输出层每个节点都会得到一个误差e,把e作为输出层反向输入,这时候就像是输出层当输入层一样把误差往回传播,先得到输出层,然后将输出层根据连接权重往隐层传输,即前面的式子:
现在再来看第一层权重的梯度:
第二层权重梯度:
可以看到一个规律:每个权重的梯度都等于与其相连的前一层节点的输出(即和
)乘以与其相连的后一层的反向传播的输出(
即和
)。
这样反向传播得到所有的 δ 以后,就可以更新权重了。更直观的BP神经网络的工作过程总结如下:
对于单个神经元
激励函数为 :
θ(s)=11+e−s
参数更新公式:
θ′(s)=θ(s)⋅(1−θ(s))=SOut⋅(1−SOut)
训练终止条件
每一轮训练都使用数据集的所有记录,但什么时候停止,停止条件有下面两种:
设置最大迭代次数,比如使用数据集迭代100次后停止训练
计算训练集在网络上的误差,达到一定门限值后停止训练
BP算法的代码实现
程序定义
maxepochs = 60000 #训练次数
learnrate = 0.030 #学习率
errorfinal = 0.65*10**(-3) #误差
indim = 3 #输入层神经元个数
outdim = 2 #输出层神经元个数
hiddenunitnum = 3 #隐含层神经元个数
随机产生权值和偏置
w1 = 0.5*np.random.rand(hiddenunitnum,indim)-0.1 #8*3
b1 = 0.5*np.random.rand(hiddenunitnum,1)-0.1 #8*1
w2 = 0.5*np.random.rand(outdim,hiddenunitnum)-0.1 #8*3
b2 = 0.5*np.random.rand(outdim,1)-0.1 #8*1
隐含层和输出层的输出
hiddenout = f((np.dot(w1,sampleinnorm).transpose()+b1.transpose())).transpose() #隐含层输出
networkout = (np.dot(w2,hiddenout).transpose()+b2.transpose()).transpose() #输出层输出
误差计算
err = sampleoutnorm - networkout
sse = sum(sum(err**2))/m
误差小于某一精度
if sse < errorfinal:
break
参数更新
delta2 = err
delta1 = np.dot(w2.transpose(),delta2)*hiddenout*(1-hiddenout)
dw2 = np.dot(delta2,hiddenout.transpose())
db2 = np.dot(delta2,np.ones((samnum,1)))
dw1 = np.dot(delta1,sampleinnorm.transpose())
db1 = np.dot(delta1,np.ones((samnum,1)))
w2 += learnrate*dw2
b2 += learnrate*db2
w1 += learnrate*dw1
b1 += learnrate*db1
完整代码
for i in range(maxepochs):
hiddenout = f((np.dot(w1,sampleinnorm).transpose()+b1.transpose())).transpose()
networkout = (np.dot(w2,hiddenout).transpose()+b2.transpose()).transpose()
err = sampleoutnorm - networkout
sse = sum(sum(err**2))/m
errhistory.append(sse)
if sse < errorfinal:
break
delta2 = err
delta1 = np.dot(w2.transpose(),delta2)*hiddenout*(1-hiddenout)
dw2 = np.dot(delta2,hiddenout.transpose())
db2 = np.dot(delta2,np.ones((samnum,1)))
dw1 = np.dot(delta1,sampleinnorm.transpose())
db1 = np.dot(delta1,np.ones((samnum,1)))
w2 += learnrate*dw2
b2 += learnrate*db2
w1 += learnrate*dw1
b1 += learnrate*db1
实验结果
真实值与测试值对比以及误差曲线
数据预测
使用线性回归算法预测:
我们从图像可以看出,数据具有线性关系。
首先是预测客运量:
使用WeKa求解参数
预测2010年客运量: 57267
预测2011年客运量: 56663
预测货运量
使用WeKa求解参数
预测2010年货运量: 29559
预测2011年货运量: 30859
预测值比较
标准BP神经网络的优点
既能求解非线性问题,又能求解线性问题。
标准BP神经网络的缺陷
(1)容易形成局部极小值而得不到全局最优值。BP神经网络中极小值比较多,所以很容易陷入局部极小值。
(2)训练次数多使得学习效率低,收敛速度慢。
(3)隐含层的选取缺乏理论的指导。
(4)训练时学习新样本有遗忘旧样本的趋势。
线性回归的优点
算法实现比较简单,需要训练的参数比较少。
线性回归的缺点
对于某些非线性问题,线性回归求解出的结果,误差比较大。