预测LLM微调与遗忘副作用的新方法MNEME

原创于 2025-07-30 22:26:35 发布 · 175 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #python #机器学习 #大语言模型 #模型微调 #稀疏模型差分 #程序那些事

部署运行你感兴趣的模型镜像

摘要

大型语言模型（LLM）常通过微调或知识遗忘来适应新任务或消除不良行为。现有评估方法虽能衡量干预后的性能，却缺乏检测不可预测或涌现性副作用（如遗忘生物学内容导致化学任务性能下降）的通用方案。为此，我们提出MNEME（Model diffiNg for Evaluating Mechanistic Effects），一种轻量级框架，利用稀疏模型差分技术识别此类副作用。MNEME通过比较基础模型与微调模型在任务无关数据（如The Pile、LMSYS-Chat-1M）上的行为差异，无需访问微调数据即可隔离行为变化。在三种场景（WMDP知识遗忘、涌现性错位、良性微调）中对五种LLM的测试表明，MNEME预测副作用的准确率高达95%，且与已知基准一致，无需定制启发式规则。此外，实验证明对高激活样本的再训练可部分逆转这些副作用。结果表明，稀疏探测与差分技术为理解和管理LLM行为变化提供了可扩展的自动化工具。

核心内容

问题背景：LLM的微调与知识遗忘可能引发跨领域性能退化等不可预见的副作用，传统评估方法难以捕捉。
技术方案：
- 稀疏模型差分：通过对比基础模型与干预后模型在通用数据上的激活差异，量化行为变化。
- 任务无关评估：无需依赖微调数据，直接分析模型内部机制的变化。
实验结果：
- 在WMDP知识遗忘任务中，MNEME准确识别因遗忘导致的化学知识退化。
- 对高激活样本的再训练可使模型性能恢复至干预前的80%。
应用价值：为模型调试、安全部署及效果追溯提供自动化分析工具，降低人工评估成本。

图表与数据

更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调

LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型（Large Language Model）训练与微调平台。通过 LLaMA Factory，可以在无需编写任何代码的前提下，在本地完成上百种预训练模型的微调

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。