Raki的读paper小记：Forget-free Continual Learning with Winning Subnetworks

最新推荐文章于 2025-04-10 14:58:26 发布

爱睡觉的Raki

最新推荐文章于 2025-04-10 14:58:26 发布

阅读量902

点赞数 1

分类专栏： Continual Learning 读paper 文章标签：深度学习机器学习神经网络人工智能

本文链接：https://blog.youkuaiyun.com/Raki_J/article/details/129346424

版权

本文提出了一种名为WinningSubnetworks（WSN）的方法，它在持续学习中寻找最佳子网络，同时保持先前任务的权重不变，避免灾难性遗忘。WSN使用权重分数选择重要权重，并通过二进制掩码和霍夫曼编码压缩网络容量，实现在任务数量增加时的亚线性增长。这种方法允许知识从前任务向前转移，解决了传统方法中的权重干扰和负迁移问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract&Introduction&Related Work

研究任务
用子网络做CL
已有方法和相关工作
- 彩票假说（LTH）证明了稀疏子网络（称为中奖彩票）的存在，这些子网络保持了密集网络的性能，然而使用迭代修剪方法在持续学习过程中搜索最佳获胜门票需要对每个到达的任务进行重复剪枝和重新训练，这是不切实际的
- 基于剪枝的持续学习方法：
  - CLNP使用 $l_1$ 正则化以诱导稀疏性并冻结它们以保持性能。之后，该模型重新初始化未被选择用于未来任务训练的神经元
  - 在给定预训练模型的权重上训练任务特定的二进制掩码。该方法不允许在记忆每个任务的学习掩码时在任务之间进行知识转移，性能在很大程度上取决于主干模型的质量
  - HAT提出了特定于任务的可学习注意力向量，以识别每个任务的重要权重，其中掩码用于在持续学习期间分层累积注意力向量
  - LL-Tickets表明存在一个称为终身票的稀疏子网络，它在持续学习期间的所有任务中都表现良好。当获得的票不能在保持过去任务的性能的同时充分学习新任务时，该方法从当前票中搜索更突出的票。LL票据需要外部数据，以利用先前任务的学习模型最大化知识蒸馏，票扩展过程由另一系列重训练和剪枝步骤组成
面临挑战
创新思路
- 提出了 Winning Subnetworks（WSN）为每个任务学习一个紧凑的子网络，同时保持先前任务选择的权重不变。所提出的方法不执行任何用于学习子网络的显式修剪。这不仅可以消除灾难性遗忘，还可以将以前的任务学到的知识向前转移到新的任务
实验结论

WSN联合学习与每个任务相关联的子网络相关的模型权重和任务自适应二进制掩码，同时尝试通过重用之前子网络的权重来选择要激活的一小组权重（获胜票），每张中奖彩票产生的二进制掩码被编码为一个N位二进制数字掩码，然后使用霍夫曼编码进行压缩，以实现网络容量相对于任务数量的亚线性增长

与图1a基于修剪的CL方法不同，该方法在预先训练的主干网络中获得特定于任务的子网络，我们逐步学习神经网络中的模型权重和任务自适应二进制掩码（子网络）。
为了在模型学习新任务时允许前向转移，我们将学习到的子网络权重重新用于先前任务，但有选择地，而不是使用所有权重（图1b），这可能会导致有偏的转移。
通过冻结先前任务的子网络权重，消除了持续学习过程中灾难性遗忘的威胁，并且不像
图1c 那样，不会受到负迁移的影响，图1c在训练新任务时可以更新先前任务的网络权重。权重的大小通常被用作查找彩票中使用的最佳子网络的修剪标准

然而在CL中，仅依赖权重大小可能是次优的，因为权重是跨类共享的，因此新任务的训练将改变先前任务训练的权重（重用权重）。这将触发雪崩效应，在学习器看来，选择作为后续任务子网络一部分的权重总是更好，这将导致先前任务知识的灾难性遗忘

在CL中，学习器在不改变重复使用的权重的情况下对新任务进行训练是很重要的。为了找到最优子网络，我们将学习参数和网络结构的信息解耦为两个独立的可学习参数，即权重和权重分数
权重分数是具有与权重相同形状的二进制掩码，通过选择权重排名得分最高的百分之k的权重，可以找到子网络

WSN在密集网络内选择性地重用和动态地扩展子网络，绿色边是重复使用的权重
在这里插入图片描述