小样本学习记录————用于深度网络快速适应的模型不可知元学习(MAML)

最新推荐文章于 2024-10-19 17:42:18 发布

原创

最新推荐文章于 2024-10-19 17:42:18 发布 · 3.6k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #小样本 #python

本文介绍了小样本学习的概念，特别是元学习中的模型即MAML（Model-Agnostic Meta-Learning）。MAML旨在通过少量训练样本来快速适应新任务。文章详细阐述了MAML的思想，即寻找一个模型参数初始值，能通过少量迭代在不同任务上达到最佳性能。此外，还解释了元学习的两种主要方法：基于优化和基于度量，并提供了MAML算法的代码实现概述。

小样本学习记录————MAML用于深度网络快速适应的模型不可知元学习

相关概念
- 小样本学习（Few-Shot Learning）
- 元学习（Meta-Learning）
MAML思想
- MAML算法
- 论文代码

MAML思想

算法目标： 是一个模型可以经过比较少的训练快速迭代到最好的效果。

为了达到这一目的，模型需要大量的先验知识来不停修正初始化参数，使其能够适应不同种类的数据。这里需要借助李宏毅老师课堂的PPT图来理解一下MAML和预训练的区别。

我们定义初始化参数为 $\phi$ ，其初始化参数为 $\phi_0$ ，定义在第n个测试任务上训练之后的模型参数为 ${\hat{\theta}}^n$ ，于是总的损失函数为 $L(\phi)=\sum_{n=1}^Nl^n( \hat{\theta}^n )$ 。pre-training的损失函数是 $L(\phi)=\sum_{n=1}^Nl^n(\phi)$ ，直观上理解是MAML所评测的损失是在任务训练之后的测试loss，而pre-training是直接在原有基础上求损失没有经过训练。
在这里插入图片描述
用论文中图片来说就是找到一个 $\phi$ ，在训练后可以让所有任务上loss都能下降到最优。

在这里插入图片描述
而model pre-training的初衷是寻找一个从一开始就让所有任务的损失之和处于最小状态 $\phi$ ，它并不保证所有任务都能训练到最好的 ${\hat{\theta}}^n$ ，如上图所示， loss可能会收敛到局部最优。

MAML算法

$P (T)$ 用来表示任务的分布， $\beta，\alpha$ 是训练的超参数，表示子任务内的学习率和任务间的学习率， $f_\theta$ 表示训练的模型。

随机初始化模型参数 $\theta$ ，这个 $\theta$ 就是前文李宏毅老师所讲的 $\phi_0$ 其实。
每一次训练从中提取一个子任务 $T_i$ 。
在 $T_i$ 任务里，我们使用公式 $\theta'_i=\theta - \alpha\nabla_\theta L_{T_i}(f\theta)$ 来更新任务内的 $\theta'_i$