引言
\quad
多任务学习是一种诱导迁移学习的方法,通过使用相关任务的训练信号中包含的信息来辅助另一个问题。在假设所有数据都可以事先获得的情况下,这个问题已有了一些比较完善的策略。
\quad
但是近年来,数据在越来越多的场景下是以分布式或者流式的结构出现的,这就需要新的方法。本文介绍了在网络上学习和适应的多任务学习策略,各个智能体被允许相互合作来学习不同相关的任务。
\quad
考虑一个由
n
n
n个独立的智能体构成的网络,智能体
k
k
k的邻域为
N
k
N_k
Nk。每个智能体都有一个凸性的、可微分的实数值代价
J
k
(
w
k
)
J_k(w_k)
Jk(wk),而智能体
k
k
k处的目标就是估计参数
w
k
o
w_k^o
wko,使得
J
k
(
w
k
)
J_k(w_k)
Jk(wk)最小。文章首先描述了一类能够实时响应流式数据的非协作方案,然后解释了如何扩展这些方案来处理图上的MTL。
流数据下的非合作学习
\quad
为解决流式数据下随机性的问题,数据的分布通常是未知的,即参数
w
w
w的梯度未知,需要使用近似梯度
∇
w
k
J
k
(
⋅
)
^
\hat{\nabla w_k J_k(·)}
∇wkJk(⋅)^。求解所需要的随机梯度下降法为:
w
k
,
i
=
w
k
,
i
−
1
−
μ
∇
w
k
J
k
(
w
k
,
i
−
1
)
^
w_{k,i}=w_{k,i-1}-\mu \hat{\nabla w_k J_k(w_{k,i-1})}
wk,i=wk,i−1−μ∇wkJk(wk,i−1)^
\quad
以均方误差(MSE)网络为例,每个智能体接收流式数据
d
k
(
i
)
,
u
k
,
i
d_k (i),u_{k,i}
dk(i),uk,i,满足线性关系
d
k
(
i
)
=
u
k
,
i
⊤
w
k
o
+
v
k
(
i
)
d_k(i)=u^{\top}_{k,i} w_k^o + v_k (i)
dk(i)=uk,i⊤wko+vk(i)
风险函数采用MSE代价的形式:
J
k
(
w
k
)
=
1
2
E
(
d
k
(
i
)
−
u
k
,
i
⊤
w
k
)
2
J_k (w_k) = \frac{1}{2} E(d_k (i) - u^\top_{k,i}w_k)^2
Jk(wk)=21E(dk(i)−uk,i⊤wk)2
\quad
代入随机梯度下降法就得到了著名的最小均方算法:
w
k
,
i
=
w
k
,
i
−
1
+
μ
u
k
,
i
(
d
k
(
i
)
−
u
k
,
i
⊤
w
k
,
i
−
1
)
w_{k,i}=w_{k,i-1}+\mu u_{k,i} (d_k (i) - u^\top_{k,i}w_{k,i-1})
wk,i=wk,i−1+μuk,i(dk(i)−uk,i⊤wk,i−1)
\quad
使用近似梯度而不是真正的梯度给系统带来了一定的扰动,称之为梯度噪声:
s
k
,
i
(
w
k
)
=
w
k
J
k
(
w
k
)
−
w
k
J
k
(
w
k
)
^
s_{k,i} (w_k)=w_k J_k(w_k)-\hat{w_k J_k(w_k)}
sk,i(wk)=wkJk(wk)−wkJk(wk)^
\quad
在评估这些波动的大小时,通常测量稳态均方差MSD,期望各个智能体之间互相合作能够帮助提高系统性能:
M
S
D
=
lim
i
→
∞
1
N
∑
k
=
1
N
E
∥
w
k
o
−
w
k
,
i
∥
2
MSD=\lim_{i \to \infty} \frac{1}{N} \sum_{k=1}^{N} E {\parallel{w_k^o - w_{k,i}} \parallel }^2
MSD=i→∞limN1k=1∑NE∥wko−wk,i∥2
多任务学习框架
\quad
引入一个通用问题,设网络的参数向量矩阵为
W
=
c
o
l
[
w
1
,
⋅
⋅
⋅
,
w
n
]
W=col [w_1,···,w_n]
W=col[w1,⋅⋅⋅,wn],考虑多任务的全局优化问题:
W
∗
=
a
r
g
min
W
J
g
l
o
b
(
W
)
=
∑
k
=
1
N
J
k
(
w
k
)
+
η
2
R
(
W
)
,
W
∈
Ω
W^* = arg\,\min_{W} J^{glob} (W) = \sum_{k=1}^{N}J_k(w_k) + \frac{\eta}{2}R(W),W \in \Omega
W∗=argWminJglob(W)=k=1∑NJk(wk)+2ηR(W),W∈Ω
\quad
其中
R
R
R是促进任务间关系的正则化函数,
Ω
\Omega
Ω是定义参数可行域的凸集,
η
\eta
η是正则化权重参数。针对如何使用上式,作从美国天气预报和电力系统状态监控两个方面进行了举例分析。
\quad
在MTL中,正则化被广泛用于促进任务关系。在大多数网络应用程序中,底层图结构包含邻近任务之间的相关性信息。
W
W
W在图上的平滑性以拉普拉斯矩阵的二次形式度量:
S
(
W
)
=
W
⊤
L
W
=
1
2
∑
k
=
1
N
∑
l
∈
N
k
c
k
l
∥
w
k
−
w
l
∥
2
S(W) = W^\top \mathcal{ L} W = \frac{1}{2} \sum_{k=1}^{N} \sum_{l \in N_k} c_{kl} {\parallel w_k-w_l \parallel}^2
S(W)=W⊤LW=21k=1∑Nl∈Nk∑ckl∥wk−wl∥2
\quad
在优化问题中可以选择
R
(
W
)
=
S
(
W
)
R(W) = S(W)
R(W)=S(W),在此选择下
W
i
=
ψ
i
−
μ
η
L
W
(
i
−
1
)
W_i= \psi_i - \mu \eta \mathcal{ L} W(i-1)
Wi=ψi−μηLW(i−1)。通过增加正则化强度,方差项可能减小,而偏差项可能增大,理解这种偏差-方差的折中对理解正则化多任务算法十分重要。
\quad
在图谱正则化中通常有替换:
r
(
L
)
=
∑
m
=
1
N
r
(
λ
m
)
v
m
v
m
⊤
r(\mathcal{ L})= \sum_{m=1}^{N}r(\lambda_m) v_m v^\top_m
r(L)=m=1∑Nr(λm)vmvm⊤
\quad
作者从图谱滤波的角度举例作出了分析,网络上的MTL允许将实时自适应与图形/空间滤波相结合。此外,作者还对子空间约束下的多任务学习进行了讨论。