本文是LLM系列,针对《Knowledge Editing on Black-box Large Language Models》的翻译。
摘要
知识编辑(KE)旨在有效、准确地修改大型语言模型(LLM)的行为,以更新特定知识,而不会对其他知识产生负面影响。目前的研究主要集中在白盒LLM编辑上,忽略了一个重要的场景:黑盒LLM的编辑,即通过接口访问LLM,并且只有文本输出可用。在本文中,我们首先正式介绍了KE对黑匣子LLM的影响,然后提出了一个全面的评估框架,以克服现有评估不适用于黑匣子LLMs编辑且缺乏全面性的局限性。为了解决当前方法中编辑数据和风格过度编辑的隐私泄露问题,我们引入了一种新颖的postEdit框架,通过下游后处理解决隐私问题,并通过对原始响应进行细粒度编辑来保持文本风格的一致性。对两个基准测试的实验和分析表明,postEdit的性能优于所有基线,并实现了很强的泛化能力,尤其是在风格保持方面有了巨大的改进(平均+20.82%↑)。
1 引言
2 评估框架
3 方法
4 实验
5 分析
6 相关工作
7 结论
在本文中,我们首先介绍了一个黑盒LLM下知识编辑的综合评估框架,该框架融合了多个视角,并考虑了风格保留。接下来,我们提出了一个新的postEdit框架,通过对LL