Matching Networks for One Shot Learning （用于 One Shot Learning 的匹配网络）

最新推荐文章于 2024-09-16 08:06:56 发布

CaoChengtai

最新推荐文章于 2024-09-16 08:06:56 发布

阅读量4.6k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： Meta-learning 文章标签： Meta-learning Metric learning Few-shot learning One-shot learning Matching Networks

本文链接：https://blog.youkuaiyun.com/weixin_37589575/article/details/93844850

1. 摘要

从少数几个样本中学习依然是机器学习 (Machine Learning, ML) 所面临的一个关键性挑战。尽管标准的有监督深度学习范式已经在视觉和语言等领域取得了重大的进展，但是它无法在只根据很少的数据快速学习新概念的问题上提供一个令人满意的解决方法。

本文提出的方法基于：

基于深度神经网络特征的度量学习
具有外部存储的记忆增强网络

本文提出的框架学习一个网络，来映射少量的有标签的 Support Set 样本和将一个无标签的样本映射到它的标签（预测），同时避免在适应新的类上面进行微调。文章还定义了语言和视觉任务下的 one-shot learning 问题，实验验证了方法在上述两个问题上的可行性和有用性。

（1）新的类；（2）每个类的训练样本只有一个；（3）学习一个网络映射输入空间到新的空间，比较相似度；
这三个特征满足 few-shot learning，meta-learning 的基本特征，而且可以看成属于 meta-learning 中的度量学习（metric learning）。

（推荐阅读以下链接，对理解本文很有帮助：https://blog.youkuaiyun.com/weixin_37589575/article/details/92801610）

2. 介绍

人类可以在具有很少的监督信息的情况下快速学习新的概念，例如一个小孩可以从书本上的单个图片推广归纳 “斑马” 的概念，然而我们最好的深度学习 (Deep Learning, DL) 模型却需要成百上千个样本。这个机器智能和人类智能的差距，推动鼓励我们来关注 one-shot learning 问题，其中每个类只有一个有标签的样本。

机器学习在语音、视觉和语言等领域取得了巨大的进展，但是它也有一个令人诟病的大问题，就是需要大量的数据。数据增强技术和正则化技术可以缓解在少量数据集情况下的过拟合 (overfitting) 问题，但是并没有很好的解决它。另外，基于大数据集的学习过程十分缓慢，需要使用随机梯度下降 (Stochastic Gradient Descent, SGD) 进行大量的权重更新。这是因为我们的模型是一种参数化模型，其中训练样本需要缓慢地学习到模型的参数里面去。另一方面，许多非参数化方法可以快速吸收同化新的样本，同时不会遭遇灾难性的遗忘。其中有些方法（例如最近邻居）不需要任何训练，但是表现很依赖于所选择的度量。本文希望结合参数化方法和非参数化方法的优点，即快速获得新样本的概念，同时提供常见样本的卓越的泛化能力。

文章的创新点：

模型层面：Matching Nets (MN)，使用注意力机制和存储记忆来快速学习。
训练过程：Task 的概念，每个 task 模拟最后的 meta-testing 的任务，然后 switching the task from minibatch to minibatch，即一次训练几个任务 (minibatch)，重复很多次 (switching)。
文章还定义了语言和视觉任务下的 one-shot learning 问题。

3. 模型

总体而言，我们的非参数化的方法基于两个组件：（1）模型架构基于具有记忆增强的神经网络，给定一个小的 Support Set $S$ ，我们的模型定义了一个函数（或者叫做分类器） $c_{S}$ 来映射 $S$ 。（2）我们实行了一个专门用于 one-shot learning 的训练策略

3.1 模型架构

文章借鉴了具有外部存储的记忆增强网络的想法，这些网络的模型通常是完全可微的，定义了一个“读取/访问“的矩阵，其中存储了对于解决手头任务很有帮助的信息。

本文将 one-shot learning 问题看成一个 set-to-set 问题（集合到集合问题），制定一个 set-to-set 框架解决 one-shot learning 问题。我们将映射 $\rightarrow c_{S}(\hat{x})$ 改为 $P(\hat{y} | \hat{x}, S)$ ，其中 $S=\left\{\left(x_{i}, y_{i}\right)\right\}_{i=1}^{k}$ 是 $k$ 个图片-标签对， $\hat{x}$ 是测试图片， $\hat{y}$ 是我们的预测标签。 $P$ 是一个参数化的神经网络。这里我们用 meta-learning 解释， $S$ 就是我们一个 task 的 support set， $\hat{x}$ 和 $\hat{y}$