预测LLM微调与遗忘副作用的新方法MNEME

部署运行你感兴趣的模型镜像

摘要

大型语言模型(LLM)常通过微调或知识遗忘来适应新任务或消除不良行为。现有评估方法虽能衡量干预后的性能,却缺乏检测不可预测或涌现性副作用(如遗忘生物学内容导致化学任务性能下降)的通用方案。为此,我们提出MNEME(Model diffiNg for Evaluating Mechanistic Effects),一种轻量级框架,利用稀疏模型差分技术识别此类副作用。MNEME通过比较基础模型与微调模型在任务无关数据(如The Pile、LMSYS-Chat-1M)上的行为差异,无需访问微调数据即可隔离行为变化。在三种场景(WMDP知识遗忘、涌现性错位、良性微调)中对五种LLM的测试表明,MNEME预测副作用的准确率高达95%,且与已知基准一致,无需定制启发式规则。此外,实验证明对高激活样本的再训练可部分逆转这些副作用。结果表明,稀疏探测与差分技术为理解和管理LLM行为变化提供了可扩展的自动化工具。

核心内容

  1. 问题背景:LLM的微调与知识遗忘可能引发跨领域性能退化等不可预见的副作用,传统评估方法难以捕捉。
  2. 技术方案
    • 稀疏模型差分:通过对比基础模型与干预后模型在通用数据上的激活差异,量化行为变化。
    • 任务无关评估:无需依赖微调数据,直接分析模型内部机制的变化。
  3. 实验结果
    • 在WMDP知识遗忘任务中,MNEME准确识别因遗忘导致的化学知识退化。
    • 对高激活样本的再训练可使模型性能恢复至干预前的80%。
  4. 应用价值:为模型调试、安全部署及效果追溯提供自动化分析工具,降低人工评估成本。

图表与数据


更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值