一种挖掘任务之间关系的multi-task模型

最新推荐文章于 2024-11-23 09:00:00 发布

原创最新推荐文章于 2024-11-23 09:00:00 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

深度学习同时被 2 个专栏收录

69 篇文章

订阅专栏

机器学习

19 篇文章

订阅专栏

本文介绍了一种名为MMOE（Multi-gate Mixture-of-Experts）的多任务学习架构，该架构通过多个门控机制来动态调整不同专家模块的权重，以适应不同任务间的相关性变化。实验结果显示，在任务相关性较低的情况下，MMOE模型相较于传统共享底层特征的模型和单门控模型，具有更优的性能和更快的收敛速度。

今天的博客主要参考了2018年KDD会议上的paper《Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts》，提出了一种针对multi-task的通用处理架构。
话不多说，直接上图：
在这里插入图片描述
图中有a，b，c三种网络结构，其中网络a就是传统的multi-task结构，即两个不同的任务共享底层的特征表征Embedding部分网络结构信息，网络上层针对不同的应用使用不同的网络参数进行训练优化；b是单gate的multi-task网络结构，其中的expert 0，expert 1和expert 2其实都是神经网络单元（比方说多层的全连接网络等，这个和具体任务相关），所有的任务共享这部分网络参数；c是就是本篇文章提出的multi-task的网络结构，其中gate的数量和最终的目标数量是一致的，输出的内容是一个和expert个数一致的归一化向量，即针对不同的任务会有不同的expert权重配比。

那么问题就来了，既然已经有了图a中的网络（之前看到过的很多paper里都是这样用的），为什么要提出多gate的新网络结构呢？是因为作者发现当目标任务之间的相关性比较高的时候图a中的网络训练之后的效果是不错的；但是当目标任务之间的相关性下降的时候，图a中网络结构的效果下降的非常厉害。这就是说明了对目标任务关系之间的合理建模将对最终multi-task模型产生直接其较大的影响。

其实c中模型结构的计算公式是非常简单的：
$y_k=h^k(f^k(x))$ 其中 $h^k$ 是图中的Tower部分完网络参数
$f^k(x)=\sum_{i=1}^n g^k(x)_if_i(x)$
其中 $g^k(x)=softmax(W_{gk}x)$
$g^k$ 就是图中的gate， $f_i$ 就是 $expert_i$
到这里，其实整个模型已经介绍完了，下面就来讲一下作者做的一系列对比实验。

首先可能大家比较好奇的是，既然这篇paper说提出的模型在不相关的任务上也能有比较好的效果，其实如何知道2个不同的目标任务之间的相关性呢？（虽然业务上相似的任务会比业务上不相似的任务具有更好的相关性，但这只是一个定性的概念，如何定量的衡量显然是一个不小的困难）。这里作者采用了一种比较巧的方法，即自己构造了两批回归问题场景下使用的数据，既然是自己构造的，那么任务之间的相关性就可以随意指定了，构造过程如下：
(1) 假设目标任务的输入特征维度为d，首先随机生成2个正交单位向量 $u_1$ 和 $u_2$ ，保证
$u_1^T u_2=0$ ， $u_1||_2=1$ ， $u_2||_1=1$ ；
(2) 用户输入一个常量值 $c$ 和目标任务之间的相关性 $- 1 < = p < = 1$ ，生成2个权重向量 $w_1$ 和 $w_2$ ， $w_1=cu_1$ , $w_2=c(pu_1+\sqrt{(1-p^2)u_2})$ ；
(3) 随机生成d维向量x，其每一维度值都按照分布 $N (0, 1)$ 产生；
(4) 生成2个回归任务的y值
$y_1=w_1^Tx+\sum_{i=1}^msin(\alpha_iw_1^Tx+\beta_i)+\gamma_1$
$y_2=w_2^Tx+\sum_{i=1}^msin(\alpha_iw_2^Tx+\beta_i)+\gamma_2$
其中 $\alpha_i,\beta_i和m$ 是用户给定的参数， $\gamma_1$ 和 $\gamma_2$ 是加入的噪声变量，从分布 $N (0, 0.01)$ 产生。
重复步骤(1)-(4)产生足够的样本数据，最终通过不同相关性任务下的对比实验，得到以下结果：
在这里插入图片描述
图中的MMOE就是本篇提出的多gate模型，OMoE是单gate模型，shared-Bottom就是共享底层特征表示的模型。

从图中可以看出越是相关性低的任务，MMOE模型领先的优势越明显。
同时为了探索不同结构对训练过程收敛速度的影响，作者通过大量的对比实验得到了以下的结果图像：
在这里插入图片描述
横轴代表了训练过程中能够到达最低的误差值，纵轴代表了百分比，即有百分之多少的实验能够收敛到这个误差值。可以看出在大部分的实验中MMOE相比于其他两种结构能更高概率收敛到这个误差值，进一步说明了这种多gate结构在multi-task任务中的合理性。