PMET: Precise Model Editing in a Transformer

828 篇文章

已下架不支持订阅

PMET是一种改进的模型编辑技术,分析了Transformer层的隐藏状态,发现多头自注意力(MHSA)编码通用知识模式。通过优化Transformer组件(MHSA和FFN)的隐藏状态,仅用优化后的FFN状态更新权重,提高模型编辑性能。PMET在多个数据集上表现出最先进的性能。

本文是LLM系列的文章,针对《PMET: Precise Model Editing in a Transformer》的翻译。

PMET:Transformer中的精确模型编辑

摘要

模型编辑技术以相对较低的成本修改了大型语言模型中的一小部分知识,并取得了显著的成功。现有方法假设Transformer层(TL)隐藏状态是前馈网络(FFN)的键值存储器的值。他们通常优化TL隐藏状态来记忆目标知识,并使用它来更新LLM中FFN的权重。然而,TL隐藏状态的信息流来自三个部分:多头自注意(MHSA)、FFN和残差连接。现有的方法忽略了TL隐藏状态包含FFN不特别需要的信息这一事实。因此,模型编辑的性能降低。为了实现更精确的模型编辑,我们分析了MHSA和FFN的隐藏状态,发现MHSA编码某些通用知识提取模式。这意味着当引入新知识时,MHSA权重不需要更新。基于上述发现,我们引入了PMET,它同时优化了Transformer组件(TC,即MHSA和FFN)的隐藏状态,而只使用优化后的FFN的TC隐藏状态来精确更新FFN权重。我们的实验表明,PMET在COUNTERFACT和zsRE数据集上都表现出了最先进的性能。我们的消融实验证实了我们增强的有效性,进一步强化了MHSA编码某些一般知识提取模式的发现,并表明它存储了少量的事实知识。我们的代码可在https://github.com/xpq-tech/PMET.git.

1 引言

2 相关工作

3 方法

4 实验

5 结论

我们揭示了MHSA作为一个知

已下架不支持订阅

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值