Continuous Learning of Context-dependent Processing in Neural Networks
作者: Guanxiong Zeng, Yang Chen, Bo Cui and Shan Yu
5 Oct 2018
今天下午陈阳师兄来讲他最近的工作,感觉挺巧妙的,主要是解决两个问题,神经网络会遗忘和连续学习的问题。
Orthogonal Weights Modification (OWM)
一个神经网络先学习一个任务,训练完成后,再进行另外一个任务的训练,往往会将第一个任务遗忘。但人脑并不是这样,这个方法就是要解决这个问题。给两个任务先后学习,给两个任务的输入,希望神经网络的结果都是正确的。
我的理解是这个方法的原理是利用正交空间的思想,使得学习第二个任务时候不影响第一个任务的解:
y=W⋅xy=W\cdot xy=W⋅x
y=(W+ΔW)⋅xy=(W+\Delta W)\cdot xy=(W+ΔW)⋅x
只要学习时更新权重的方向ΔW\Delta WΔW与原来的输入xxx都正交,就不会影响原来的解。由矩阵论的性质可知,正交投影矩阵
P=I−A(ATA+αI)−1ATP=I-A(A^TA+\alpha I)^{-1}A^TP=I−A(ATA+αI)−1AT
A=[x1,x2,...,xn]A=[x_1,x_2,...,x_n]A=[x1,x2,...,xn]
满足这个性质。即任意一个向量bbb,都可以分解成原来的输入空间AAA上的分量和与AAA正交的分量,先用最小二乘法求解输入空间AAA上的分量有
b=A⋅kb=A\cdot kb=A⋅k
AT=ATA⋅kA^T=A^TA\cdot kAT=A