论文学习 Branched Multi-Task Networks: Deciding What Layers To Share

BMTN：多任务学习新框架

最新推荐文章于 2024-10-08 16:24:11 发布

原创最新推荐文章于 2024-10-08 16:24:11 发布 · 1.1k 阅读

1 ·

CC 4.0 BY-SA版权

Deep Learning 同时被 2 个专栏收录

4 篇文章

订阅专栏

Multi-task Learning

1 篇文章

订阅专栏

BMTN是一种新型多任务学习框架，由Luc van Gool团队提出，旨在自动搜索网络分支位置，解决多任务学习中共享特征层的问题。通过度量任务关联性，BMTN能够构建最优分支任务网络，提高模型效率与性能。

1. 多任务学习网络

随着ICCV2017最佳论文授予kaiming大神的Mask-RCNN，多任务网络成为了新的研究热点。Mask-RCNN基于目标检测框架，在RoI pooling层后设计两个并行的子网络：一个分支是原始的目标检测分支，即判断物体类别和回归边框，另一个分支实现其他任务，如实例分割或人体关键点检测等，多任务同时学习提高了各自任务的性能（相比单独训练某个任务）。无独有偶，CVPR2018最佳论文颁给了Taskonomy。Taskonomy的主要目标是发掘不同视觉任务间的关联性，从而避免关联任务的重复学习，减少对标注数据的需求，同时提供了一个容易扩展和泛化性较强的多任务学习框架，尤其是对数据量有限的新任务的学习具有重要意义。尽管作者不认为taskonomy是多任务学习，但是可以用来解决多任务学习的问题。自此，多任务学习彻底成为深度学习领域的热门方向，新的研究成果层出不穷。

2. Branched Multi-Task Networks （BMTN）

论文地址：https://arxiv.org/abs/1904.02920

近期，来自ETH和鲁汶大学的Luc van Gool（计算机视觉大师，surf特征的作者）团队提出了一个新的多任务学习框架，主要思路借鉴了Taskonomy，但是又有所区别。作者认为不同视觉任务间可能会共享不同层次的特征，即具有不同程度的关联性，网络越深，学到的特征对某个任务越有针对性。因此，BMTN重点解决如下问题：对于共享某些底层特征的多个任务，到底需要共享哪些层的特征，从哪层特征开始需要针对各自任务设计分支。BMTN提出一种新的思路，自动搜索网络分支位置，来解决过去针对具体需求按照经验设计分支的位置的问题。论文提出的思想在一定程度上与Meta-Learning和NAS（Neural Architecture Searching）有概念重合。

与Taskonomy类似，BMTN也分为四个步骤，但是第三步与第四步与前者有本质的不同。方法框架如下图所示：

图1.BMTN四个步骤。Step 1：对每个任务从零开始各自训练自己的模型。Step 2：将所有任务两两配对，使用任务A的前l层训练好的网络替换任务B的前l层网络，微调任务B后L-l层网络。Step 3：定义度量任务关联程度的performance matrix。Step 4：定义损失函数，通过优化算法搜索最优分支位置。

Step 1：训练单任务网络

针对每个任务 $t_i \in \mathcal{T}$ ，训练各自的单任务网络。这些单任务网络的Ecoder部分完全相同，后面接一个与任务相关的Decoder，这个Decoder可以是一个上采样卷积网络，实现像素级操作的任务，如语义分割等，也可以是一个级联的全连层，实现诸如分类的任务。相比Encoder，Decoder是一个非常小的网络结构。

Step 2：训练重新组合的网络

将任务 $t_i$ 单任务网络的前 $l$ 层，使用其他一个已经训练好的单任务网络 $t_j$ 的前 $l$ 层进行替换，保持这部分权重不变，微调任务 $t_i$ 剩余网络的权重。如果任务 $t_i$ 与 $t_j$ 有较强的关联性，经过替换权重之后， $t_i$ 应该保持类似的性能或者性能变化不大，否则，性能会下降。这种性能上的变化在下一步用作度量多任务之间的关联性。

Step 3：计算任务关联性度量分数

对于任务 $t_l$ ，按照第二个步骤的方法，使用任意一个任务 $t_i$ 替换其encoder，若使用微调后的loss作为度量可比性较差，因此本文借鉴Taskonomy的做法，构建了一个Performance Matrix。对于任务 $t_l$ ，使用任务 $t_i$ 和任务 $t_j$ 分别替换其encoder并微调，然后在一个hold-out测试集上测试准确率。令，

$w_{ij}= \frac{用t_i替换t_l的网络优于用t_j替换t_l的网络的测试样本个数}{用t_i替换t_l的网络劣于用t_j替换t_l的网络的测试样本个数}$ 。

对于任务 $t_l$ ，可以构建一个对比矩阵 $W_{t_l} \in R^{N \times N}$ ， $N$ 为任务个数，每个元素 $w_{ij}$ 上面的公式得到。使用层次分析法(Analytic Hierarchy Process, AHP）分析矩阵 $W_{t_l}$ ，具体方法解释参考这里。简单来说，计算 $W_{t_l}$ 最大特征值对应的特征向量 $v$ ，将 $v$ 归一化，即 $v^{'} = v / ∣ v ∣$ 。 $v^{'}$ 中第 $i$ 个元素对应任务 $t_i$ 与任务 $t_l$ 的关联程度。将所有 $N$ 个任务的关联度量堆叠到一起，构成Performance Matrix： $\in R^{N \times N}$ 。这里，使用Taskonomy中的图来可视化矩阵 $P$ ：

图2.Performance Matrix可视化。左边是没有使用AHP处理之前的结果，邮编是AHP处理之后的结果。

在BMTN中，作者提出一个运算 $A=\frac{1}{2}(P+P^T)$ ，得到task affinity矩阵。将第三步运用在共享的encoder中的不同层上，可以度量一对任务在encoder某个深度上的关联性。最后，可以得到一个维度是 $\times N \times L$ 的张量， $N$ 是任务数量， $L$ 是在共享的encoder上针对不同任务建立分支的位置。

Step 4：构建分支任务网络

这一步实际上是构建一个树形结构的过程。将encoder中第 $l$ 层表示为 $f_l \in E$ ，是树结构中一个节点, $E$ 表示整个encoder网络。若在第 $l$ 层建立分支，不同的分支实现不同的任务，则可以将分支个数表示为 $b_l$ ，也可以解释为节点 $f_l$ 有 $b_l$ 个子节点。针对某个具体任务的decoder( $D_t$ )可以在构建好的树中寻找一个节点的通路，也可以用树的叶子来表示。

图3.BMTN构建的一个任务树。可以看到，在celebA人脸多属性识别中，相似任务（有关联的属性）共享encoder中更多地层，分支的位置更加靠后，如Goatee和Mustache。

下一个需要解决的问题是如何得到一棵最优的树。对于第 $l$ 层，将 $l + 1$ 层节点使用谱聚类的方式分组，使用每个组内部元素间的最大距离表示聚类损失 $C^l_{clustering}(g)$ ，这个损失值越小表示分组内部的任务相似度越大，分组之间的判别度越大，使用第三步中的task affinity分数来计算这里的距离。另外，作者希望得到一个复杂度最低的树结构，这个复杂度表示为：