什么是模型编辑
Model Editing(模型编辑)是给模型植入一项知识,目的是更新已有的知识(比如美国总统是谁)、学习新知识。
Post Training(后训练)是学会一项新的技能(不是知识),需要模型做较大的改变才能学会。

那能不能把Model Editing作为一个Post Training呢?其实是可以的,但是存在一个挑战是,缺少数据,因为学习或者更新一个知识通常就一条数据就行了,这么少的数据显然不适合做Post Training。

怎么衡量模型编辑是否成功
怎么衡量模型编辑是否成功呢?可以从3个方面来衡量,假设我们的目标是通过模型编辑让模型学会(“全世界最帅的人是谁”,“李宏毅”)这条知识。
- Reliability:你想要修改的目标必须要达成。输入同样的问题,需要输出同样的答案。也就是说,输入“全世界最帅的人是谁”,输出就是“李宏毅”
- Generalization:也就是泛化性,输入有一些改变,输出也会有一些相应的改变。比如,输入“谁是全世界最帅的人”,输出还是“李宏毅”
- Locality:其他无关的输入的输出不应该被改变。比如,“美国总统是谁”的答案应该在模型编辑前后保持一致。

Generalization的定义比较模糊,具体范围可以根据自己的实际需要而定。比较典型的泛化的衡量场景有三种
- Paraphrase Generalization(释义泛化):编辑模型使其在接收到某个输入(如问题或陈述)时返回特定输出后,是否还能在表达方式不同但语义相同的输入上表现出一致的行为。
- Reverse Generalization(反向泛化):编辑模型使其在某输入返回新答案后,模型是否能正确回答与这个输入答案之间存在逻辑关系的其他问题,通常是对该知识的反向提问。
- Portability(可迁移性):模型被编辑后,新知识是否可以迁移应用到其他相关任务或上下文中,而不是仅限于类似问题或上下文。


模型编辑的方法
常见的方法有两种。

不改变模型参数
一种是不动参数的方法,只需要把知识作为输入给模型。比如下图中把新资讯输入给gpt-4o,但是模型不相信,怎么办?

有一个叫IKE的方法,是给模型一些示例,告诉它怎么使用新知识。这个时候模型就能通过给定的资讯去回答。

IKE给了三类的范例,分别对应上述三种衡量方法。这里c1,c2,c3就是不同的范例。

改变模型参数
第二种是改变参数的方法,其中又包括由人类决定如何编辑,比如ROME,以及人工智能学习如何编辑。
人类决定如何编辑
ROME分为2步,第1步是找出神经网络中跟要编辑的知识最相关的部分,第2步就是修改这部分的参数。

举个例子,原本的知识是“The Space Needle is in Seattle”,目标是改成“The Space Needle is in Taipei”。

那么第1步就是要找出神经网络中跟要编辑的知识最相关的部分,怎么找到呢?用图来解释下这个过程。正常的输入输出是下图左边,下图右边把“The Space Needle”这部分token信息盖掉(论文里是在token embedding上加noise),这时候模型中间的每一层都会发生改变,输出就是别的东西了(不是seattle)。

用左边的某个中间层的embedding替换右边的同样位置的embedding,然后看模型会输出什么,如果输出了Seattle,说明这个embedding跟模型看到“The Space Needle is in”后回答Seattle有非常大的关联性,可能存放了这个知识点。

下图是论文的分析结果,颜色代表输出Seattle的概率高低,尝试置换每个token的每一层。这张图表明,在"le"这个token的中间层,以及“down”这个token的最后几层就是跟要编辑的知识点最相关的部分。

所以接下来就是去编辑上述提到的中间层神经元的参数,可能就能让输出改成Taipei了。ROME论文分析模型的知识比较有可能存储在transformer 某些层的 MLP(feedforward)模块中,所以它编辑的对象就是feedforward network。

需要找到一个使得最终输出为Taipei。

为了强化模型编辑后的泛化能力,需要把输入稍微改一下,还需要定义什么是不希望模型改变的。下图中右边2个就是不希望模型改变的知识。

写成数学形式的话就是这样:

k1, …, kn是不希望被改变的部分的知识的输入,是需要编辑的知识的输入。
Λ 是一个向量, 也是一个向量,这个向量乘上另一个向量的 transpose,得到的就是一个 rank 为1 的 matrix。
人工智能决定如何编辑
人工智能替代上述人类的角色,它来决定如何编辑。

我们现在有一个待编辑的模型,我们还需要一个编辑模型(叫做Hypernetwork),它在接收到一些信息之后,会输出一个参数向量,这个向量加到待编辑模型上之后,待编辑模型的知识就发生了改变,达成模型编辑的目的。

训练Hypernetwork的过程是Meta Learning中的一环。Meta Learning在2019,2022年讲过。

怎么训练Hypernetwork?理想情况我们需要一些训练资料,告诉模型我们需要编辑的知识是哪些,应该输出什么样的参数向量才能让待编辑模型学会这个知识。但是现实情况是,我们不知道这些参数向量是什么样的。

另一种训练方式是,可以把两个模型接在一起看成一个类神经网络,这个时候参数向量就是神经网络中间某一层的输出,我们不需要有这个向量的正确答案,只需要训练模型,使得输出达成目标即可。

我们的训练资料有:
- 输入x1,改成输出y1(例子1)
- 输入x2,改成输出y2(例子1),为了保持locality
- 输入u1,维持输出v1(例子2)
- 输入u2,维持输出v2(例子2),为了保持locality 以例子1为例,x1,u1会分别输入给待编辑模型,x1, y1会输入给编辑模型,编辑模型输出一个向量e1,待编辑模型的参数加上这个e1之后,就能分别输出y1和v1。这个过程就是训练编辑模型如何根据输入的指令来进行编辑。
在测试的时候,只需要准备x3, y3输入给编辑模型,测试待编辑模型是否能在输入x3的情况下输出y3。

这样训练其实是有些困难的,因为需要将输入资讯对应到编辑结果e,需要一个参数量巨大的模型,没有什么文献是这样去训练的。

我们可以多做一步,计算要编辑知识的Loss,然后算出gradient descent,把gradient descent输入给一个神经网络,得到编辑向量e。

我们还需要做一些假设来简化这个问题,比如假设我们要改的待编辑模型的参数只是一层全连接层,维度是1024 x 1024,从而gradient descent也是1024 x 1024。但是这样还不行,复杂度仍然高。

有一个方法叫MEND,它发现可以利用 gradient descent 的特性,将gradient分解为2个向量的乘积,降低Hypernetwork的复杂度。首先将 gradient descent分解成向量u 和 向量v的转置,再将他们分别输入一个neural network,得到 u hat 和 v hat 的转置。将u hat 乘上 v hat 的转置,得到一个新的 matrix,用这个matrix 当作 e 来更新待编辑模型的參數。因为这个neural network 的输入和输出维度比较小,更容易训练。

至于为什么gradient descent 可以分解成2个向量的乘积呢,可以看2015年的课程。


普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01 教学内容

-
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
-
大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。

vx扫描下方二维码即可

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03 入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05 行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!

06 90+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

1946

被折叠的 条评论
为什么被折叠?



