LEARNING TO LEARN WITHOUT FORGETTING BY MAXIMIZING TRANSFER AND MINIMIZING INTERFERENCE

本文是LLM系列文章,针对《LEARNING TO LEARN WITHOUT FORGETTING BY MAXIMIZING TRANSFER AND MINIMIZING INTERFERENCE》的翻译。

摘要

在将神经网络学习扩展到更符合人类实际的环境中时,在数据的非平稳分布上的连续学习方面缺乏性能仍然是一个主要挑战。在这项工作中,我们根据转移和干扰之间的时间对称权衡,提出了连续学习问题的新概念,可以通过在示例之间强制梯度对齐来优化。然后,我们提出了一种新的算法,即元体验回放(MER),通过将体验回放与基于优化的元学习相结合,直接利用这一观点。这种方法学习的参数使基于未来梯度的干扰可能性更小,而基于未来梯度转移的可能性更大。我们在连续终身监督学习基准和非平稳强化学习环境中进行了实验,证明我们的方法始终优于最近提出的连续学习基准。我们的实验表明,随着环境变得越来越不稳定,以及存储的总经验的比例越来越小,MER算法和基线算法之间的性能差距越来越大。

1 解决持续学习问题

2 持续学习的迁移-干扰权衡

3 一个学会不忘学习的系统

4 监督式终身持续学习的评价

5 持续强化学习的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值