Model Stock: All we need is just a few fine-tuned models

最新推荐文章于 2026-01-09 16:00:52 发布

原创最新推荐文章于 2026-01-09 16:00:52 发布 · 119 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #自然语言处理

LLM Daily 同时被 2 个专栏收录

1838 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

100 篇文章

订阅专栏

文章主要内容和创新点

主要内容

本文提出了一种名为Model Stock的高效微调方法，用于大型预训练模型的优化。该方法旨在解决传统模型融合方法（如Model Soup）需要大量微调模型（数十个）才能达到良好性能的问题，仅通过少量微调模型（甚至2个）即可实现更优的分布内（ID）和分布外（OOD）性能。

核心研究发现包括：

不同随机种子微调的模型权重在权重空间中呈现“薄壳分布”，层间的角度和范数具有高度一致性；
模型性能与靠近权重空间中心的程度正相关，越接近中心，ID和OOD任务表现越好；
基于上述几何特性，Model Stock以预训练模型为“锚点”，通过几何计算从少量微调模型中逼近权重中心，无需额外训练即可确定最优插值比例，大幅降低计算成本。

实验表明，基于CLIP架构的Model Stock在标准基准测试中，ID和OOD性能均优于Model Soup等现有方法，且计算成本仅为其1/24至1/35。

创新点

权重空间几何特性的发现：首次揭示微调模型权重在层间呈现角度和范数的一致性，分布于“薄壳”上，且靠近中心的权重性能更优；
高效模型融合方法：提出Model Stock，仅需2个微调模型和预训练模型，通过几何推导（垂直投影计算）即可逼近权重中心，无需大量模型平均；
灵活性与效率：支持训练中或训练后融合

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。