论文直达
原理架构说明
如图是作者给出一个架构图,其中的c就是本文提到的MMOE。
a)为共享参数的模型架构
b)为OMOE模型架构
c)在OMOE的基础上,为每一个任务分贝设置一个gate,对不同的任务使用不同的gate与共享参数进行点乘,作为不同任务的基础输出。
作为2018年的论文,gate更加像是一种attention机制的雏形,论文相对简单。在任务相关度很低的情况下,则OMoE的效果相对于MMoE明显下降,说明MMoE中的multi-gate的结构对于任务差异带来的冲突有一定的缓解作用

论文介绍了MMOE模型,一种用于多任务学习的方法,它通过多门控混合专家(Multi-gateMixture-of-Experts)结构来处理任务之间的差异。在OMOE模型基础上,MMOE为每个任务设置单独的gate,以适应不同任务的需求,缓解任务间的冲突。当任务相关性低时,MMOE的表现优于OMOE,显示出其在处理任务差异上的优势。提供的代码展示了MMOE模型的实现细节,包括专家网络和门网络的构建。
最低0.47元/天 解锁文章
5474

被折叠的 条评论
为什么被折叠?



