线性神经网络:
线性神经网络与感知器的主要区别在于感知器的激活函数只能输出两种可能值(-1或1),而线性神经网络的输出可以取任意值,其激活函数是线性函数。
线性神经网络采用Widrow-Hoff学习规则(最小均方规则),即LMS(Least Mean Square)算法来调整网络的权值和偏置值。结构图如下。这里使用purelin激活函数进行模型训练,这样可以得到一个更好的效果。输出结果的时候还是使用sign激活函数。
1.LMS学习规则:
2.Delta规则:
这里说明一下,dj是我们的期望输出,oj是实际的输出,训练模型的目的是使E的值最小,也就是说实际的输出与期望的输出越接近越好。误差梯度是由E对Wj求导得来,求导如下:
如何理解“欲使误差E最小,Wj应与误差的负梯度成正比”?继续往下看。
梯度下降法(一维的情况):向最低出走,使代价函数最小。
梯度下降法(二维的情况):向最低出走,使代价函数最小。
梯度下降法存在的问题:
第一,学习率难以选取,太大会产生震荡,太小收敛慢。
第二,容易陷入局部最优解。
下面通过线性神经网络来解决上篇文章单层感知器的局限性–异或问题提到的问题(线性神经网络解决线性不可分问题的一种方法是对神经元添加非线性输入)。
说明:X0是偏置值,值为1,X1,X2为线性输入,其它为添加的非线性输入,使用purelin激活函数(y=x)进行模型训练,再下面是y值的求法,用于图形绘制。
#题目:异或运算
#0^0=0
#0^1=1
#1^0=1
#1^1=0
import numpy as np
import matplotlib.pyplot as plt
#输入数据--这里偏置定为1
X = np.array([[1,0,0,0,0,0],
[1,0,1,0,0,1],
[1,1,0,1,0,0],
[1,1,1,1,1,1]])
#标签--期望输出
Y = np.array([-1,1,1,-1])
#权值初始化,1行6列,取-1到1的随机数
W = (np.random.random(6)-0.5)*2
print(W)
#学习率
lr = 0.11
#计算迭代次数
n = 0
#神经网络输出
o = 0
def update():
global X,Y,W,lr,n
n+=1
o = np.dot(X,W.T)
W_C = lr*((Y-o.T).dot(X))/(X.shape[0])#权值改变数,这里除掉行数求平均值,因为行数多,权值改变就会很大。
W = W + W_C
[-0.57405097 -0.51354031 -0.90854467 0.82881503 -0.49341974 -0.26113806]
for i in range(1000):
update()#更新权值
o = np.dot(X,W.T)
print("执行一千次后的输出结果:",o)#看下执行一千次之后的输出
#用图形表示出来
#正样本
x1 = [0,1]
y1 = [1,0]
#负样本
x2 = [0,1]
y2 = [0,1]
def calculate(x,root):
a = W[5]
b = W[2]+x*W[4]
c = W[0]+x*W[1]+x*x*W[3]
if root == 1:#第一个根
return (-b+np.sqrt(b*b-4*a*c))/(2*a)
if root == 2:#第二个根
return (-b-np.sqrt(b*b-4*a*c))/(2*a)
xdata = np.linspace(-1,2)
plt.figure()
plt.plot(xdata,calculate(xdata,1),'r')#用红色
plt.plot(xdata,calculate(xdata,2),'r')#用红色
plt.plot(x1,y1,'bo')#用蓝色
plt.plot(x2,y2,'yo')#用黄色
plt.show()
执行一千次后的输出结果: [-0.99176849 0.99450319 0.99450319 -0.99574669]
从输出结果上看,使用线性神经网络可以很好的解决异或问题,同时结果很接近我们的期望结果[-1,1,1,-1]。