Meta Learning

本文介绍了元学习的概念及其工作原理。通过对比人类的学习过程,解释了神经网络如何通过优化器动态调整参数来实现有效的学习方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


Meta learning就是learning to learn,字面意思就是学会学习。想一下人是怎么学会学习的:
采用一种学习方法(比如刷题/背题/背概念等)进行学习,然后得到反馈(成绩是否提高),如果是正的反馈(成绩不断提高),说明这种学习方法是有效的。

那么神经网络是如何学会学习的呢?
采用一种学习方法(对于神经网络来说,就是模型的参数)进行学习,然后得到反馈(误差关于参数的梯度),如果是正的反馈(梯度不断变小,意味着学习效果不断变好),说明这种学习方法是有效的。

执行体就是下图中的optimizee,也就是由它采用特定的学习方法进行学习,每种学习方法就对应着不同参数的optimizee模型,它在学习的过程中会不停地输出自己的loss关于参数的梯度,optimizer就是通过这个来评判这个学习方法(模型)的效果好不好的。optimizee需要从多种不同任务的training data中学习。

optimizer相当于一个判官,看到optimizee的梯度越来越小了,就知道optimizee当前采用的学习方法效果不错,就会沿着这个方向给出新的参数更新值,也就是给optimizee指定一个新的学习方法。当看到optimizee的梯度越来越大了,就知道得悬崖勒马了,会沿着其他方向给出参数更新值。总之,optimizer的工作就是要让optimizee在学习多种不同任务时的平均误差(误差的期望)最小。这样得到的optimizee才算是学习到了多种不同的任务。

可以认为optimizer是规则的制定者,optimizee是规则的执行者,optimizer根据optimizee执行的效果动态调整规则。


这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值