ICML 2025 | CoTo：让LoRA训练「渐入佳境」，模型融合、剪枝样样精通

最新推荐文章于 2025-11-30 20:35:27 发布

原创

最新推荐文章于 2025-11-30 20:35:27 发布 · 603 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#剪枝 #算法 #机器学习

常规 LoRA 训练的隐藏缺陷

参数高效微调技术已成为预训练大模型在下游任务应用的关键技术。然而，尽管 LoRA 如此成功，它依然面临着一些棘手的问题：

1. 「惰性训练」（Lazy Training）：LoRA 的优化过程常常会陷入初始化点附近的次优解，限制了模型的泛化能力。

2. 层级不平衡：在训练中，梯度更新往往集中位于模型的顶层适配器，导致底层适配器训练不足，整体性能受限。

3. 下游操作困难：上述问题使得多个 LoRA 模型的融合和剪枝等下游操作变得非常困难，效果常常不尽人意。

CoTo 策略：何不让 LoRA 「渐入佳境」？

为了解决这些挑战，研究者们提出了 CoTo，其核心思想非常简洁直观：在训练初期，不必让每一层的训练「一拥而上」，而是让 LoRA 适配器「循序渐进」地参与训练。具体来说，CoTo 采用了一种渐进式的激活策略：

训练初期：以一个较高的概率随机「失活」一部分 LoRA 适配器。这迫使模型在更新时不能过分依赖某几层，从而让梯度更均匀地流向所有层级，鼓励模型探索更广阔的参数空间。
训练中后期：线性地提高适配器的激活概率，直到所有适配器都完全参与训练，回归到标准的微调模式。

这种「先抑后扬」的策略带来了诸多好处：它不仅促进了层级间的均衡优化，还显著提升了不同随机种子训练出的模型之间的线性模式连通性 (Linear Mode Connectivity, LMC) 和 Dropout 稳定性，为模型融合与剪枝打下了坚实的基础。

图 1：CoTo 渐进式激活示意图。训练初期（t <3T/4），适配器被随机失

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。