文章主要内容总结
本文聚焦于大型语言模型(LLMs)微调对个体响应的影响,提出了一种量化微调贡献的新方法——Tuning Contribution(TuCo)。
- 核心问题:现有研究多关注微调对模型整体性能的影响,缺乏对个体输出的定量分析,尤其是微调如何影响模型对特定提示的响应。
- 方法基础:基于Transformer的残差结构,将微调模型精确分解为预训练组件(PTC) 和微调组件(FTC)。PTC是预训练模型各层的输出,FTC是微调模型与预训练模型对应层输出的差值。
- TuCo定义:以FTC与PTC的累积幅度比为核心,量化微调在模型前向传播过程中对输出的影响,反映微调组件相对于预训练组件的贡献程度。
- 实证发现:
- 调整FTC的幅度可控制模型行为(如政治/宗教立场)和性能(如MMLU基准任务准确率);<