本篇来自论文《An Overview of Multi-Task Learning in Deep Neural Networks》
一、Introduction
机器学习中,我们通常关心针对特定指标的优化,无论这是某个基准的分数还是业务关键绩效指标。为了做到这一点,我们通常训练一个模型或一组模型来执行我们所期望的任务。然后我们对这些模型进行微调,直到它们的性能不再提高。虽然我们通常可以通过这种方式获得可接受的性能,但通过激光专注于我们的单一任务,我们忽略了可能帮助我们在我们关心的指标上做得更好的信息。具体来说,这些信息来自于相关任务的训练信号。通过在相关任务之间共享表示,我们可以使我们的模型能够更好地对原始任务进行泛化。这种方法被称为多任务学习(MTL)。
MTL有很多种形式:联合学习、学习和辅助任务学习只是用来指代它的一些名称。一般来说,一旦你发现自己优化了不止一个损失函数,你就可以有效地进行多任务学习(与单任务学习相比)。在这些场景中,它有助于思考你试图明确地用MTL来做什么,并从中获得见解。
即使你只优化一个损失,这是典型的情况,有可能有一个辅助任务,有助于你改善你的主要任务。MTL的目标:“MTL通过利用相关任务的训练信号中包含的领域特定信息来改进泛化”。
在这篇文章中,是对多任务学习的现状做一个概括性的概述,特别是当涉及到使用深度神经网络的MTL时。在第二节中,将从不同的角度来谈MTL的动机。然后,第3节中介绍两种最常用的MTL深度学习方法。随后,在第4节中,描述共同说明MTL在实践中工作的机制。在研究更先进的基于神经网络的MTL方法之前,在第5节通过讨论MTL中的文献提供一些背景。然后,在第6节中介绍一些更强大的最近提出的方法,用于深度神经网络中的MTL。最后,在第7节中讨论常用的辅助任务类型,并讨论什么样的辅助任务才是好的辅助任务。
二、Motivation
我们可以用不同的方式看到使用多任务学习的动机:从生物学上讲,我们可以看到多任务学习是由人类学习所激发的。为了学习新的任务,我们经常运用我们从学习相关任务中获得的知识。例如,婴儿首先学会识别面部,然后可以应用这些知识来识别其他物体。从教育学的角度来看,我们通常先学习一些任务,这些任务为我们掌握更复杂的技术提供了必要的技能。这对于学习正确的武术摔倒方式是正确的,例如柔道和学习编程。以流行文化为例,我们也可以考虑空手道小子在这部电影中,宫城先生教空手道小子一些看似不相关的任务,比如打磨地板和给汽车上蜡。然而,事后看来,这些技能使他具备了学习空手道的宝贵技能。最后,我们可以从机器学习的角度来激发多任务学习:我们可以将多任务学习视为归纳迁移的一种形式。归纳转移可以通过引入一个归纳偏差来帮助改进模型,这使得模型更喜欢一些假设。例如,归纳偏差的一种常见形式是“正则化”,这会导致对稀疏解的偏好。在MTL的情况下,归纳偏差是由辅助任务提供的,这使得模型更倾向于解释多个任务的假设。正如我们将很快看到的,这通常会导致更好地概括的解决方案
三、Two MTL methods for Deep Learning
到目前为止,我们都集中在MTL的理论动机上。为了使MTL的思想更加具体,我们现在来看两种在深层神经网络中执行多任务学习最常用的方法。在深度学习的背景下,多任务学习通常是通过共享隐藏层的硬参数或软参数来完成的。
3.1 Hard parameter sharing
硬参数共享是神经网络中最常用的MTL方法。它通常在所有任务之间共享隐藏层来应用,同时保留几个特定于任务的输出层,如图1所示。硬参数共享大大降低了过度拟合的风险。事实上,过度拟合共享参数的风险是一个N阶(其中N是任务数)小于过度拟合特定任务参数(即输出层)的风险。这在直觉上是有道理的:我们同时学习的任务越多,我们的模型就越需要找到一个能够捕获所有任务的表示,而我们在原始任务上过度拟合的机会就越小。
3.2 Soft parameter sharing
另一方面,每个任务都有自己的模型和参数。然后对模型参数之间的距离进行正则化,以鼓励参数相似,如图2所示。有的使用l2距离进行正则化,有的使用 trace norm。深度神经网络中用于软参数共享的约束很大程度上受到了MTL正则化技术的启发,我们将很快讨论这些技术。
四、Why does MTL work?
尽管通过多任务学习获得的归纳偏差在直觉上似乎是合理的,但为了更好地理解MTL,我们需要研究其背后的机制。对于所有的例子,我们假设我们有两个相关的任务A和B,它们依赖于一个公共的隐藏层表示F。
4.1 Implicit data augmentation
MTL有效地增加了我们用来训练模型的样本量。由于所有任务至少都有一定的噪声,因此在训练某个任务a的模型时,我们的目标是学习任务a的一个好的表示,理想情况下,它忽略了数据相关噪声,并具有很好的泛化能力。由于不同任务具有不同的噪声模式,同时学习两个任务的模型能够学习更泛化的表示数据。只学习任务A有过度拟合任务A的风险,而学习A和B共同使模型通过平均噪声模式获得更好的表示F。
4.2

本文回顾了多任务学习的历史,介绍了深度神经网络中多任务学习的最新研究。探讨了硬参数共享和软参数共享两种主要方法,分析了多任务学习的工作原理,并概述了最近在深度学习中多任务学习的进展。
最低0.47元/天 解锁文章
4467

被折叠的 条评论
为什么被折叠?



