本文依据文章title:
本文按照文章顺序进行,只抽取笔者认为的重点部分,如有不妥,还请看客给出意见建议一起进步。感兴趣的话,建议去biying原文阅读。
2. MAML以及分层贝叶斯表示的回顾
- 2.1 元学习作为基于梯度的超参数优化器
参数化的元学习目的是find一些shared参数,当面临novel task时,能够轻松的find适用于该task的参数。
MAML提供了一中基于梯度的元学习过程,它使用相同元学习率对各个任务得到其一步梯度后的参数,实现fast adaptation。
将MAML的学习目标表示如下:
可以看出,它在内循环使用多任务的参数更新,在外循环使用这些参数来计算相同任务不同采样的损失函数值,并对原始参数进行一次更新。通过这种方式,可以充分利用多任务中的梯度信息,从而有希望学到common的知识,成为下一次参数更新的先验。这其中很自然的蕴含了在线学习的思想,这也是为什么iclr2018的best paper基于MAML做了增强学习下复杂环境下的continue learning—实时动态。 - 2.2 元学习作为分层的贝叶斯推理
我们首先将MAML的参数更新过程表示成下面左图所示,并给出其概率图模型,从下面的分析中可以看出二者的联系。
左图反应的实际就是上面(1)式描述的事情。
要强调的一点是(1)式里的条件概率,对于我们的代价,可以很自然的将其表示为条件概率的形式,因为我们的最终输出是在给定模型参数下样本属于各类的概率。
这样就很好理解图1的左边部分了。右边部分实际上是左边计算图的一个概率图模型表示。具体来说就是,在某一次更新外循环参数时,固定为theta,此时,对于各个任务来说,theta作为模型参数的先验,每个任务的phi从theta中采样得到,满足iid条件,但是这个采样并不是随意的,它有一个目标就是能够根据该phi以高概率将该任务中的N样本xjn分类准确,即条件概率p(xjn|phi)大。而这个phi就是theta在各任务上的最大后验估计(MAP)。
要强调的一点是图1的左图是计算图,右图是概率图,概率图反应出来的仅仅是计算图的phi的后验是如何得到的这一步。之后的对先验theta的更新就和PAC-