本文是LLM系列文章,针对《LEARNING TO LEARN WITHOUT FORGETTING BY MAXIMIZING TRANSFER AND MINIMIZING INTERFERENCE》的翻译。
通过最大限度地转移和最小化干扰来学习不遗忘
摘要
在将神经网络学习扩展到更符合人类实际的环境中时,在数据的非平稳分布上的连续学习方面缺乏性能仍然是一个主要挑战。在这项工作中,我们根据转移和干扰之间的时间对称权衡,提出了连续学习问题的新概念,可以通过在示例之间强制梯度对齐来优化。然后,我们提出了一种新的算法,即元体验回放(MER),通过将体验回放与基于优化的元学习相结合,直接利用这一观点。这种方法学习的参数使基于未来梯度的干扰可能性更小,而基于未来梯度转移的可能性更大。我们在连续终身监督学习基准和非平稳强化学习环境中进行了实验,证明我们的方法始终优于最近提出的连续学习基准。我们的实验表明,随着环境变得越来越不稳定,以及存储的总经验的比例越来越小,MER算法和基线算法之间的性能差距越来越大。