Multitask Learning Over Graphs 阅读笔记

引言

\quad 多任务学习是一种诱导迁移学习的方法,通过使用相关任务的训练信号中包含的信息来辅助另一个问题。在假设所有数据都可以事先获得的情况下,这个问题已有了一些比较完善的策略。
\quad 但是近年来,数据在越来越多的场景下是以分布式或者流式的结构出现的,这就需要新的方法。本文介绍了在网络上学习和适应的多任务学习策略,各个智能体被允许相互合作来学习不同相关的任务。
\quad 考虑一个由 n n n个独立的智能体构成的网络,智能体 k k k的邻域为 N k N_k Nk。每个智能体都有一个凸性的、可微分的实数值代价 J k ( w k ) J_k(w_k) Jk(wk),而智能体 k k k处的目标就是估计参数 w k o w_k^o wko,使得 J k ( w k ) J_k(w_k) Jk(wk)最小。文章首先描述了一类能够实时响应流式数据的非协作方案,然后解释了如何扩展这些方案来处理图上的MTL。

流数据下的非合作学习

\quad 为解决流式数据下随机性的问题,数据的分布通常是未知的,即参数 w w w的梯度未知,需要使用近似梯度 ∇ w k J k ( ⋅ ) ^ \hat{\nabla w_k J_k(·)} wkJk()^。求解所需要的随机梯度下降法为:
w k , i = w k , i − 1 − μ ∇ w k J k ( w k , i − 1 ) ^ w_{k,i}=w_{k,i-1}-\mu \hat{\nabla w_k J_k(w_{k,i-1})} wk,i=wk,i1μwkJk(wk,i1)^
\quad 以均方误差(MSE)网络为例,每个智能体接收流式数据 d k ( i ) , u k , i d_k (i),u_{k,i} dk(i),uk,i,满足线性关系
d k ( i ) = u k , i ⊤ w k o + v k ( i ) d_k(i)=u^{\top}_{k,i} w_k^o + v_k (i) dk(i)=uk,iwko+vk(i)
风险函数采用MSE代价的形式:
J k ( w k ) = 1 2 E ( d k ( i ) − u k , i ⊤ w k ) 2 J_k (w_k) = \frac{1}{2} E(d_k (i) - u^\top_{k,i}w_k)^2 Jk(wk)=21E(dk(i)uk,iwk)2
\quad 代入随机梯度下降法就得到了著名的最小均方算法:
w k , i = w k , i − 1 + μ u k , i ( d k ( i ) − u k , i ⊤ w k , i − 1 ) w_{k,i}=w_{k,i-1}+\mu u_{k,i} (d_k (i) - u^\top_{k,i}w_{k,i-1}) wk,i=wk,i1+μuk,i(dk(i)uk,iwk,i1)
\quad 使用近似梯度而不是真正的梯度给系统带来了一定的扰动,称之为梯度噪声:
s k , i ( w k ) = w k J k ( w k ) − w k J k ( w k ) ^ s_{k,i} (w_k)=w_k J_k(w_k)-\hat{w_k J_k(w_k)} sk,i(wk)=wkJk(wk)wkJk(wk)^
\quad 在评估这些波动的大小时,通常测量稳态均方差MSD,期望各个智能体之间互相合作能够帮助提高系统性能:
M S D = lim ⁡ i → ∞ 1 N ∑ k = 1 N E ∥ w k o − w k , i ∥ 2 MSD=\lim_{i \to \infty} \frac{1}{N} \sum_{k=1}^{N} E {\parallel{w_k^o - w_{k,i}} \parallel }^2 MSD=ilimN1k=1NEwkowk,i2

多任务学习框架

\quad 引入一个通用问题,设网络的参数向量矩阵为 W = c o l [ w 1 , ⋅ ⋅ ⋅ , w n ] W=col [w_1,···,w_n] W=col[w1wn],考虑多任务的全局优化问题:
W ∗ = a r g   min ⁡ W J g l o b ( W ) = ∑ k = 1 N J k ( w k ) + η 2 R ( W ) , W ∈ Ω W^* = arg\,\min_{W} J^{glob} (W) = \sum_{k=1}^{N}J_k(w_k) + \frac{\eta}{2}R(W),W \in \Omega W=argWminJglob(W)=k=1NJk(wk)+2ηR(W),WΩ
\quad 其中 R R R是促进任务间关系的正则化函数, Ω \Omega Ω是定义参数可行域的凸集, η \eta η是正则化权重参数。针对如何使用上式,作从美国天气预报和电力系统状态监控两个方面进行了举例分析。
\quad 在MTL中,正则化被广泛用于促进任务关系。在大多数网络应用程序中,底层图结构包含邻近任务之间的相关性信息。 W W W在图上的平滑性以拉普拉斯矩阵的二次形式度量:
S ( W ) = W ⊤ L W = 1 2 ∑ k = 1 N ∑ l ∈ N k c k l ∥ w k − w l ∥ 2 S(W) = W^\top \mathcal{ L} W = \frac{1}{2} \sum_{k=1}^{N} \sum_{l \in N_k} c_{kl} {\parallel w_k-w_l \parallel}^2 S(W)=WLW=21k=1NlNkcklwkwl2
\quad 在优化问题中可以选择 R ( W ) = S ( W ) R(W) = S(W) R(W)=S(W),在此选择下 W i = ψ i − μ η L W ( i − 1 ) W_i= \psi_i - \mu \eta \mathcal{ L} W(i-1) Wi=ψiμηLW(i1)。通过增加正则化强度,方差项可能减小,而偏差项可能增大,理解这种偏差-方差的折中对理解正则化多任务算法十分重要。
\quad 在图谱正则化中通常有替换:
r ( L ) = ∑ m = 1 N r ( λ m ) v m v m ⊤ r(\mathcal{ L})= \sum_{m=1}^{N}r(\lambda_m) v_m v^\top_m r(L)=m=1Nr(λm)vmvm
\quad 作者从图谱滤波的角度举例作出了分析,网络上的MTL允许将实时自适应与图形/空间滤波相结合。此外,作者还对子空间约束下的多任务学习进行了讨论。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值