文章主要内容和创新点
主要内容
本文提出了一种名为Model Stock的高效微调方法,用于大型预训练模型的优化。该方法旨在解决传统模型融合方法(如Model Soup)需要大量微调模型(数十个)才能达到良好性能的问题,仅通过少量微调模型(甚至2个)即可实现更优的分布内(ID)和分布外(OOD)性能。
核心研究发现包括:
- 不同随机种子微调的模型权重在权重空间中呈现“薄壳分布”,层间的角度和范数具有高度一致性;
- 模型性能与靠近权重空间中心的程度正相关,越接近中心,ID和OOD任务表现越好;
- 基于上述几何特性,Model Stock以预训练模型为“锚点”,通过几何计算从少量微调模型中逼近权重中心,无需额外训练即可确定最优插值比例,大幅降低计算成本。
实验表明,基于CLIP架构的Model Stock在标准基准测试中,ID和OOD性能均优于Model Soup等现有方法,且计算成本仅为其1/24至1/35。
创新点
- 权重空间几何特性的发现:首次揭示微调模型权重在层间呈现角度和范数的一致性,分布于“薄壳”上,且靠近中心的权重性能更优;
- 高效模型融合方法:提出Model Stock,仅需2个微调模型和预训练模型,通过几何推导(垂直投影计算)即可逼近权重中心,无需大量模型平均;
- 灵活性与效率:支持训练中或训练后融合

订阅专栏 解锁全文
2282

被折叠的 条评论
为什么被折叠?



