
元学习
JessssseYule
数学博士在读,主要研究方向:预训练,自监督学习,神经科学
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
元学习系列(零):小样本学习与元学习综述
最近几周一直在看meta learning的模型,从最初的小样本学习模型开始看到最近的MAML各种改进版本,算是有了一点初步的了解,这次就主要介绍一下,什么是小样本学习,什么是元学习,以及在这个领域有哪些经典的值得学习的模型。首先是小样本学习,按照字面意思,可以理解成在样本量较少的情况下的深度学习。以前也多次提到,其实在样本量较少的时候,往往深度学习模型会过拟合,所以一般不使用深度学习的模型,而...原创 2020-01-03 17:38:03 · 6889 阅读 · 4 评论 -
元学习系列(九):Gradient Agreement as an Optimization
MAML尝试学习模型的初始化参数,使得这些参数对各类任务的梯度都是敏感的,这样针对某一特定任务甚至新的任务只需进行少数几次的梯度下降,就能取得较好的效果,可是因为这个过程中使用了二阶微分计算,增大了计算开销。Reptile在MAML的原理上进行改进,省略了二阶微分计算的过程,同时也避免模型的性能显著下降,在性能和计算开销之间都取得较好的平衡。简单来说,MAML和Reptile都是在想办法找到...原创 2020-01-02 18:22:26 · 867 阅读 · 1 评论 -
元学习系列(八):Reptile
MAML主要就是学习一个网络的初始化参数,这个参数对梯度是敏感的,使得它在针对特定任务进行fine tuning时,只需要少数几次的训练就能达到较好的效果。一般来说,我们可以用公式表示meta learning:minimize Eτ(Lτ(Uτk(ϕ)))minimize \ E_{\tau}(L_{\tau} (U_{\tau}^k(\phi)))minimize E...原创 2020-01-02 18:19:52 · 2704 阅读 · 0 评论 -
元学习系列(七):MAML与Meta-SGD
meta learning的一个重点在于如何在模型中引入先验知识,在孪生网络、原型网络等模型中,他们利用训练集作为先验知识,通过对比测试样本和训练样本进行分析,在神经图灵机等记忆增强神经网络中,模型引入了外部记忆,在训练过程中通过优化外部记忆,从而在训练新任务时,能通过外部记忆更快更准确地学习,而接下来要介绍的MAML,则从模型的参数初始化入手。重新再说一次,小样本学习或者元学习的目的就是对于...原创 2020-01-02 18:14:17 · 4529 阅读 · 3 评论 -
元学习系列(六):神经图灵机详细分析
神经图灵机是LSTM、GRU的改进版本,本质上依然包含一个外部记忆结构、可对记忆进行读写操作,主要针对读写操作进行了改进,或者说提出了一种新的读写操作思路。神经图灵机之所以叫这个名字是因为它通过深度学习模型模拟了图灵机,但是我觉得如果先去介绍图灵机的概念,就会搞得很混乱,所以这里主要从神经图灵机改进了LSTM的哪些方面入手进行讲解,同时,由于模型的结构比较复杂,为了让思路更清晰,这次也会分开几...原创 2020-01-02 18:09:51 · 3992 阅读 · 1 评论 -
元学习系列(五):GRU模型
之前提到的孪生网络那类模型,简单来说他们都是把训练集作为先验知识进行建模,而像LSTM、GRU、神经图灵机这一类模型则提供了另一个新思路,那就是引入外部记忆,在训练过程中通过训练集对外部记忆进行修改,从而在测试的时候利用外部记忆作为先验知识。LSTM和RNN相比,引入了长期记忆和门结构,缓解了长期依赖问题。所谓的门结构,就是sigmoid函数,通过sigmoid函数分析应该遗忘什么、记忆什么和...原创 2020-01-02 18:03:15 · 10173 阅读 · 2 评论 -
元学习系列(四):Matching Network(匹配网络)
对一个小孩子来说,只要你展示了一次斑马的样子,以后他就能指出什么是斑马了,整个学习的过程只有一个样本,但是对深度学习算法来说还远远达不到这种学习程度,所以研究如何通过小样本甚至一个样本进行学习,就成为了few-shot、 one-shot learning的目的。当然这里的小样本指的是某一类的样本比较小,比如要分辨猫狗鸡,可能鸡的样本只有几个,但是猫狗比较多,在这种情况下模型如何学习才能更好地...原创 2020-01-02 17:59:51 · 13342 阅读 · 3 评论 -
元学习系列(三):Relation Network(关系网络)
对小样本学习,一开始介绍了孪生网络,它主要输入数据的任意两幅图像,学习计算他们的匹配程度,从而在测试集中计算测试样本和训练样本的哪个样本匹配程度最高。孪生网络需要计算任意两两样本的匹配程度,而原型网络则进一步改进,提出对样本进行适当的embedding,然后计算样本每一类的样本中心,称为原型prototype,通过模型学习出prototype的位置,对测试样本计算到每个原型的距离,从而进行分类...原创 2020-01-02 17:55:22 · 19641 阅读 · 3 评论 -
元学习系列(二):Prototypical Networks(原型网络)
之前我们了解了孪生网络以及他是如何处理one-shot learning的例子,现在我们再来看看另一个模型,原型网络Prototypical Networks。之前说过,孪生网络的缺点就是要对比目标和过去每个样本之间的相似度,从而分析目标的类别,而原型网络就提出,先把样本投影到一个空间,计算每个样本类别的中心,在分类的时候,通过对比目标到每个中心的距离,从而分析出目标的类别:大致思路很简单...原创 2020-01-02 17:52:53 · 19946 阅读 · 4 评论 -
元学习系列(一):Siamese Network(孪生网络)
目前有一种说法认为,深度学习模型在数据量较大的情况下才能取得较好的效果,当数据量较少,更偏向于使用传统的机器学习模型。想办法从深度学习的方向构建模型,使得模型在数据量较小的情况下也能取得较好效果,就是meta learning的目标。那么如何才能实现这个目标呢,从人类学习分类物体的角度来说,人类认识新的物体并不需要太多的样本,这是因为人类拥有更多的先验知识,比如现在叫一个没见过碟子的人,从一堆...原创 2020-01-02 17:44:25 · 4750 阅读 · 4 评论