Model Stock: All we need is just a few fine-tuned models

文章主要内容和创新点

主要内容

本文提出了一种名为Model Stock的高效微调方法,用于大型预训练模型的优化。该方法旨在解决传统模型融合方法(如Model Soup)需要大量微调模型(数十个)才能达到良好性能的问题,仅通过少量微调模型(甚至2个)即可实现更优的分布内(ID)和分布外(OOD)性能。

核心研究发现包括:

  1. 不同随机种子微调的模型权重在权重空间中呈现“薄壳分布”,层间的角度和范数具有高度一致性;
  2. 模型性能与靠近权重空间中心的程度正相关,越接近中心,ID和OOD任务表现越好;
  3. 基于上述几何特性,Model Stock以预训练模型为“锚点”,通过几何计算从少量微调模型中逼近权重中心,无需额外训练即可确定最优插值比例,大幅降低计算成本。

实验表明,基于CLIP架构的Model Stock在标准基准测试中,ID和OOD性能均优于Model Soup等现有方法,且计算成本仅为其1/24至1/35。

创新点
  1. 权重空间几何特性的发现:首次揭示微调模型权重在层间呈现角度和范数的一致性,分布于“薄壳”上,且靠近中心的权重性能更优;
  2. 高效模型融合方法:提出Model Stock,仅需2个微调模型和预训练模型,通过几何推导(垂直投影计算)即可逼近权重中心,无需大量模型平均;
  3. 灵活性与效率:支持训练中或训练后融合
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值