原文:
towardsdatascience.com/continual-learning-a-primer-e328ed1d072f
训练大型语言模型目前成本在 430 万美元(GPT3)到 1.91 亿美元(Gemini)之间[1]。一旦有新的文本数据可用,例如通过许可协议,使用这些数据进行重新训练可以提高模型性能。然而,在这些成本(以及不仅仅是这些水平;哪家公司有 100 万美元的预算仅用于最终训练,更不用说初步实验了?),频繁从头开始重新训练是过于昂贵的。
由 Dan Schiumarini 在 Unsplash 上拍摄的照片
这就是持续学习(CL)介入的地方。在 CL 中,数据随着时间的推移逐渐到来,并且不能(完全)存储。机器学习模型仅在新数据上训练;这里的挑战是灾难性遗忘:旧数据的性能下降。性能下降的原因是模型仅调整其权重以适应当前数据,因为没有激励去保留从先前数据中获得的信息。
为了对抗遗忘并保留旧知识,已经提出了许多方法。这些方法可以归纳为三个核心类别:基于复述、基于正则化和基于架构。在接下来的章节中,我将详细介绍每个类别,并介绍一些选定的论文以进一步探讨。虽然我专注于分类问题,但所有涉及的想法对于例如回归任务等都是大部分同样有效的,但可能需要调整。最后,我推荐一些论文以进一步探索持续学习(CL)。
基于复述的方法
基于复述类别的示意图。除了当前任务的原数据外,从一个小型内存缓冲区中重新播放旧任务的数据。图片由作者提供。
基于复述类别的方法(也称为:基于记忆、重放)维护一个额外的小型内存缓冲区。这个缓冲区可以存储旧任务的样本,或者持有生成模型。
在第一种情况下,存储的样本可以是真实样本[2]、合成样本[3]或者仅仅是旧数据的特征表示[4]。由于内存大小通常有限,挑战在于选择哪些样本(或特征)进行存储以及如何最好地利用存储的数据。这里的策略从最能代表数据类别的样本(比如,最平均的猫图像[5])到确保多样性[6]。
在第二种情况下,额外的内存缓冲区用于存储一个或多个生成模型。这些模型与主神经网络一起维护,并训练生成特定任务的数据。训练完成后,这些模型可以动态查询不再可用的任务的数据。生成网络通常是 GAN(例如,[7])或 VAE(例如,[8])。
在这两种情况下,重放的数据通常与当前任务的数据结合进行联合训练,尽管存在其他变体(例如,[9])。
基于架构的方法
基于架构类别的示意图。每个任务预留(并可能扩展)神经网络的具体部分。图片由作者提供。
基于架构类别的方通常将神经网络的一部分(例如,层或单个神经元)分配给特定任务。一旦某个部分被任务占用,随后到达的任务就不会修改这个特定区域。由于任务特定权重不会改变,因此可以完全避免灾难性遗忘。
一个缺点是,只有有限数量的任务可以在网络中“预留”空间。存在两种方向来解决这个问题。
第一个方向是扩展网络架构。这里的方法包括众所周知的渐进网络 [10] 和 DEN [11]。前者为每个任务添加新的网络分支(即,层堆栈),并通过横向连接(即,从一个分支的层 i 到另一个分支的层 j)重用旧的 冻结 分支。后者在容量不足时动态扩展网络大小。
第二个方向使用任务特定和任务共享部分,因此所有任务都从(大量)共享参数中抽取,并拥有(少量)任务特定参数。这里有趣的工作范围从维护中央参数空间 [12] 到在 同一网络 上叠加多个二进制掩码 [13, 14](参考 [14] 是我读的第一篇 CL 论文!)。
在第二个方向,使用任务共享和任务特定参数的挑战在于不要覆盖任务共享区域——这导致了参数正则化的理念,这是本指南的第三和最后一个类别。
基于正则化的方法
基于正则化类别的示意图。正向传播利用所有权重。在反向传播过程中,重要的权重不会被更新。图片由作者提供。
基于正则化类别的方法定义利用技术首先识别对旧任务重要的网络参数。然后根据它们的重要性正则化参数的更新:在训练过程中,重要的权重变化较少,不重要的权重变化较多。这是通过使用一个或多个额外的损失项来实现的,如果重要的权重需要变化更多,这些损失项会增加。在神经网络训练中,较低的损失通常更好,因此,神经网络避免更新重要的权重。
根据我的经验,大多数已发表的研究都属于这一类别(尽管不一定只属于这个单一类别,因为方法通常结合了多个类别的想法)。在正则化方法中,弹性权重巩固[15]是最为成熟(也是最古老的)方法之一。它通过额外的损失项来正则化对重要权重的更新,并提出了各种后续方法(例如,[16, 17])。
一篇非常有趣的论文是梯度投影记忆(GPM)[18]。我几个月前读过它,记得两件事非常清晰:
-
我不得不中间小憩一下,让数学知识沉淀
-
我在之后去参加派对(与阅读无关,但仍然很愉快)
本文背后的想法建立在梯度在 n 维空间中给出方向性的基础上。在这里,每个任务(及其梯度)都有特定的空间,称为“核心空间”。这个空间包含了执行相应任务所需的知识。在为新任务训练时,GPM 正则化对这些特殊空间的更新,并引导它们保持正交。这促使新任务占据不同的空间同时保留预留空间(大部分)不变。因此,任务之间造成的推理影响最小。
结论和推荐阅读
在这篇简短的入门指南中,我讨论了持续学习(CL)研究中的三个主要方向:基于回放、基于架构和基于正则化的方法。基于回放的方法维护一个记忆缓冲区来存储旧数据,基于架构的方法将网络参数委派给特定部分,而基于正则化的方法则正则化对重要参数的更新。
在每个类别中,我提到了一些可以作为你在 CL 研究中起点的研究论文。如果你不确定如何开始,我可以按照以下顺序推荐以下论文(给出标题):
-
经验回放
-
进步神经网络
-
弹性权重巩固
-
持续学习的三种场景
-
持续学习(CL)的全面调查:理论、方法、应用
-
使用获胜子网络的零遗忘持续学习
-
忘记更少是否是前向迁移的良好归纳偏差?
你能推荐更多论文吗?请在评论中告诉我!
参考文献
*一些调查也使用了五个方向,但本文中提出的三个方向是最常见的
[1] www.visualcapitalist.com/training-costs-of-ai-models-over-time/; accessed 13. October 2024
[2] Arslan Chaudhry, Marcus Rohrbach, Mohamed Elhoseiny, Thalaiyasingam Ajanthan, Puneet K Dokania, Philip HS Torr, and Marc’Aurelio Ranzato. 2019. On tiny episodic memories in continual learning, In arXiv
[4] Xialei Liu, Chenshen Wu, Mikel Menta, Luis Herranz, Bogdan Raducanu, Andrew D Bagdanov, Shangling Jui, and Joost van de Weijer. Generative feature replay for class-incremental learning. 2020. In CVPR Workshops, pages 226–227
[5] Sylvestre-Alvise Rebuffi, Alexander Kolesnikov, Georg Sperl, and Christoph H Lampert. icarl: Incremental classifier and representation learning. 2017. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2001–2010.
[6] Jihwan Bang, Heesu Kim, YoungJoon Yoo, Jung-Woo Ha, and Jonghyun Choi. Rainbow memory: Continual learning with a memory of diverse samples. ,2021. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8218-8227.
[7] Hanul Shin, Jung Kwon Lee, Jaehong Kim, and Jiwon Kim. Continual learning with deep generative replay. 2017. Advances in Neural Information Processing Systems, 30, 2017.
[8] Ronald Kemker and Christopher Kanan. Fearnet: Brain-inspired model for incremental learning. 2018. In International Conference on Learning Representations, 2018.
[9] Arslan Chaudhry, Albert Gordo, Puneet Dokania, Philip Torr, and David Lopez-Paz. Using hindsight to anchor past knowledge in continual learning. 2021. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 35, pages 6993–7001.
[10] Andrei A Rusu, Neil C Rabinowitz, Guillaume Desjardins, Hubert Soyer, James Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, and Raia Hadsell. Progressive neural networks. 2016. arXiv preprint arXiv:1606.04671.
[11] Jaehong Yoon, Eunho Yang, Jeongtae Lee, and Sung Ju Hwang. Lifelong learning with dynamically expandable networks. 2018. In International Conference on Learning Representations.
[12] Jaehong Yoon, Saehoon Kim, Eunho Yang, and Sung Ju Hwang. Scalable and order-robust continual learning with additive parameter decomposition. 2019. In International Conference on Learning Representations.
[13] Joan Serra, Didac Suris, Marius Miron, and Alexandros Karatzoglou. Overcoming catastrophic forgetting with hard attention to the task. 2018. In International Conference on Machine Learning, pages 4548–4557. PMLR.
[14] Haeyong Kang, Rusty John Lloyd Mina, Sultan Rizky Hikmawan Madjid, Jaehong Yoon, Mark Hasegawa-Johnson, Sung Ju Hwang, and Chang D Yoo. 2022. Forget-free continual learning with winning subnetworks. In International Conference on Machine Learning, pages 10734–10750. PMLR.
[15] James Kirkpatrick, Razvan Pascanu, Neil Rabinowitz, Joel Veness, Guillaume Desjardins, Andrei A Rusu, Kieran Milan, John Quan, Tiago Ramalho, Agnieszka Grabska-Barwinska, 等人. 在神经网络中克服灾难性遗忘。2017 年。美国国家科学院院刊,第 114 卷第 13 期:3521–3526。
[16] Jonathan Schwarz, Wojciech Czarnecki, Jelena Luketina, Agnieszka Grabska-Barwinska, Yee Whye Teh, Razvan Pascanu, 和 Raia Hadsell. 进展与压缩:一个可扩展的持续学习框架。2018 年。国际机器学习会议,第 4528–4537 页。PMLR。
[17] Friedemann Zenke, Ben Poole, 和 Surya Ganguli. 通过突触智能进行持续学习。2017 年。国际机器学习会议,第 3987–3995 页。PMLR。
[18] Gobinda Saha, Isha Garg, 和 Kaushik Roy. 梯度投影记忆用于持续学习。2020 年。国际学习表示会议。
1万+

被折叠的 条评论
为什么被折叠?



