Meta Network||论文笔记

本文是对2017年ICML一篇Meta - Learning论文的笔记。介绍了MetaNet,其具有跨任务快速泛化的架构和训练流程,说明了Fast Weight和Slow Weight概念,阐述了MetaNet训练的三个主要过程,还提及在三种数据集上的One - Shot实验,该模型能增强小样本学习效果,但有可改善之处。

 

元学习论文总结||小样本学习论文总结

2017-2019年计算机视觉顶会文章收录 AAAI2017-2019 CVPR2017-2019 ECCV2018 ICCV2017-2019 ICLR2017-2019 NIPS2017-2019

 

Meta-Learning论文笔记:Meta Network

Meta-Learning论文笔记:Meta Network

本文是对2017年ICML的一篇Meta-Learning论文的笔记论文连接

MetaNet 是Meta Networks的缩写,具有用于跨任务快速泛化的体系结构和训练流程。

名词说明:Fast Weight 和 Slow Weight

模型的跨任务快速概括依赖于fast weight。神经网络中的参数通常是根据目标函数中的梯度下降来更新的,这个过程对于小样本学习是很慢的。一种更快的学习方法是利用一个神经网络预测另一个神经网络的参数,生成的参数称为快权值即fast weight。普通的基于SGD等优化的参数被称为慢权值即slow weight。

在 MetaNet 中,损失梯度信息被作为meta information ,用来生成快权重。在神经网络中,将慢权值和快权值结合起来进行预测。

多层叠加Layer Augmentation

模型:

整体架构:

如图,MetaNet的训练包括三个主要过程: meta information的获取、以及fast weight的生成和slow weight的优化,由base learner和meta learner共同执行。

MetaNet的整体结构

数据集和主要的函数说明:

  • 训练数据包含两种数据集:支持集 supportset\left\{x_{i}^{\prime}, y_{i}^{\prime}\right\}_{i=1}^{N}和训练集 \left\{x_{i}, y_{i}\right\}_{i=1}^{L}
  • Base learner简写为 b,是一个函数或神经网络。通过任务损失 loss_{\operatorname{task}} 估计主要任务目标。它的参数由慢权值 example-level的快权值 W^{*} 构成
  • 动态表征函数 u,对样本学习到一个嵌入。参数由慢权值 example-level快权值 Q^{*} 组成
  • Meta learner由快速权值生成函数 和 组成,参数为 和 G,它们的输入由损失梯度 \nabla_{W}和 \nabla_{Q} 构成,经过映射后生成 W^{*}和 Q^{*}和其对应慢权值维度相同

训练过程:

1. 表征函数的学习:将随机采样的支持集数据输入到表征(嵌入)函数 中,为了得到数据集的嵌入,利用表征损失 los s_{e m b} 来捕获表示学习目标,并将梯度作为meta information获取。其中损失函数为:\mathcal{L}_{i}=loss_{e m b}\left(u\left(Q, x_{i}^{\prime}\right), y_{i}^{\prime}\right)\\它的具体计算是随机抽取 对支持集样本的来计算嵌入损失:\mathcal{L}_{i}=loss_{e m b}\left(u\left(Q, x_{1, i}^{\prime}\right), u\left(Q, x_{2, i}^{\prime}\right), l_{i}\right)\\其中 l_{i} 是辅助标签:l_{i}=\left\{\begin{array}{ll}{1,} & {\text { if } y_{1, i}^{\prime}=y_{2, i}^{\prime}} \\ {0,} & {\text { otherwise }}\end{array}\right.\\其实也就是个二分类,属于所有的支持集样本嵌入做距离计算后经过映射或 sigmod 函数转化为概率,就成为二分类问题。每次任务损失反向传播得到其损失梯度信息:\nabla_{i}=\nabla_{Q} \mathcal{L}_{i}\\对函数 每次任务损失反向传播得到其梯度信息 \nabla_{Q} ,通过快权值生成函数 的映射得到快权值 Q^{*} :Q^{*}=d\left(G,\{\nabla\}_{i=1}^{T}\right)\\2. 快权值的生成:对每个支持集样本数据输入到Base learner函数 中,之后计算出预测的标签和支持集实际的标签通过交叉熵等损失函数计算 loss :\mathcal{L}_{i}=loss_{\operatorname{task}}\left(b\left(W, x_{i}^{\prime}\right), y_{i}^{\prime}\right)\\生成Base learner 的快权值需要支持集的meta information,即利用支持集的损失梯度信息:\nabla_{i}=\nabla_{W} \mathcal{L}_{i}\\函数 从损失梯度 \left\{\nabla_{i}\right\}_{i=1}^{N} 中学到一个映射,映射后得到快权值 \left\{W_{i}^{*}\right\}_{i=1}^{N} :

W_{i}^{*}=m\left(Z, \nabla_{i}\right)\\这个快权值 W_{i}^{*} 存储在 M=\left\{W_{i}^{*}\right\}_{i=1}^{N} 中。

3. 建立支持集的索引:利用参数为快权值 Q^{*} 和慢权值 Q 的表征函数 支持集进行建立索引(有快权值的支持集的嵌入) R=\left\{r_{i}^{\prime}\right\}_{i=1}^{N} :r_{i}^{\prime}=u\left(Q, Q^{*}, x_{i}^{\prime}\right)\\4. 建立训练集的索引:与上一步类似,通过具有慢权值和快权值的表征函数 训练集建立查询索引(对训练集的嵌入):r_{i}=u\left(Q, Q^{*}, x_{i}\right)\\5. 对快权值的读取:如果参数 W_{i}^{*} 存储在 M 中且索引 R 已经建立,用attention(这里的attention用余弦相似度计算存储索引和输入索引)在之前建立的所有支持集的索引 R 和每一个训练集的索引计算一个相似分数:a_{i}=attention\left(R, r_{i}\right)\\然后经过归一化后用于读取存储 M 得到最终的快权值:W_{i}^{*}=softmax\left(a_{i}\right)^{\top} M\\6. 训练集标签的预测:Base learner函数 有了慢权值 W 和快权值 W^{*} 后那么执行one-shot分类为:P\left(\hat{y}_{i} | x_{i}, W, W_{i}^{*}\right)=b\left(W, W_{i}^{*}, x_{i}\right)\\这里的 \hat{y}_{i} 是对 \left\{x_{i}\right\}_{i=1}^{L} 的预测输出,另外这里的输入也可以用训练集的嵌入 \left\{r_{i}\right\}_{i=1}^{L} 代替。最终训练集损失的计算:loss_{\operatorname{task}}\left(b\left(W, W_{i}^{*}, x_{i}\right), y_{i}\right)\\整个网络的训练参数是 \theta=\{W, Q, Z, G\} ,通过像反向传播算法去最小化任务损失 。

MetaNet的训练算法如图所述:

MetaNet论文中的算法

论文在Omniglot、Mini-ImageNet 和 MNIST 三种数据集上做了One-Shot实验,实验结果都不错,具体可以看一下论文。

总结:该模型利用损失梯度作为元信息来计算快权值,能够快速适应新的不同的任务,增强在训练样本少的情况下的学习效果。效果其实也不是很强,有很多可以改善的点,并且具体训练的时候因为生成快权值的神经网络参数较多或用的LSTM这样的网络所以比较慢。

### Meta R-CNN 论文下载与阅读 Meta R-CNN 的相关论文Meta R-CNN: Towards General Solver for Instance-level Low-shot Learning》详细介绍了其方法和实验结果,重点在于通过元学习(Meta Learning)策略改进实例分割方法,使其在训练数据稀少的情况下也能取得良好效果[^2]。以下是关于如何查找和阅读该论文的建议: #### 论文下载 1. **学术数据库**:可以通过访问主流学术数据库如 IEEE Xplore、SpringerLink 或 ACM Digital Library 来搜索论文标题《Meta R-CNN: Towards General Solver for Instance-level Low-shot Learning》。这些平台通常提供高质量的学术资源。 2. **arXiv**:由于许多计算机视觉领域的研究会首先发布到 arXiv 上,因此可以尝试在 arXiv 搜索该论文标题。如果论文已发布,通常可以在 arXiv 上免费获取 PDF 版本[^1]。 3. **Google Scholar**:使用 Google Scholar 搜索论文标题,可能会找到官方版本或作者提供的预印本链接。 4. **中山大学官网**:由于 Meta R-CNN 是由中山大学的研究团队开发的,可以访问该团队的官方网站或相关实验室页面,寻找论文下载链接。 #### 论文阅读 1. **理解背景知识**:在阅读论文之前,建议熟悉元学习(Meta Learning)、Faster R-CNN 和实例级小样本学习的基本概念。这有助于更好地理解论文的核心思想[^3]。 2. **关注关键部分**: - **摘要(Abstract)**:快速了解论文的主要贡献和目标。 - **引言(Introduction)**:掌握问题背景、研究动机以及论文的核心目标。 - **方法(Methodology)**:仔细阅读 Meta R-CNN 的具体实现细节,包括元学习的两个阶段(meta-train 和 meta-test)及其优化目标[^4]。 - **实验结果(Experiments)**:分析论文中提到的实验设置和结果,例如 Table 3 中的数据表明 Meta R-CNN 在基类和新颖类别上的性能均优于其他方法[^5]。 - **结论(Conclusion)**:总结论文的主要发现和未来工作方向。 #### 工具推荐 - **PDF 阅读器**:使用支持高亮和注释功能的 PDF 阅读器(如 Adobe Acrobat Reader 或 Foxit Reader),便于标记重要信息。 - **文献管理工具**:使用 Mendeley 或 Zotero 等工具管理下载的论文,方便后续查阅和引用。 ```python # 示例代码:如何从 arXiv 下载论文(需安装 arxiv 库) import arxiv def download_paper(paper_id, save_path): search = arxiv.Search(id_list=[paper_id]) paper = next(search.results()) paper.download_pdf(dirpath=save_path) # 假设 Meta R-CNN 的 arXiv ID 为 "1234.5678" download_paper("1234.5678", "./papers") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值