本文是LLM系列文章,针对《Is it Possible to Edit Large Language Models Robustly?》的翻译。
是否可以稳健地编辑大型语言模型?
摘要
大型语言模型(LLM)在构建模仿人类行为的交流人工智能方面发挥了关键作用,但面临着高效定制的挑战。为了应对这一挑战,最近的研究深入到了模型编辑领域,它操纵语言模型的特定记忆,并改变相关的语言生成。然而,模型编辑的稳健性仍然是一个悬而未决的问题。这项工作旨在了解编辑方法的优势和局限性,从而促进交流人工智能的稳健、现实应用。具体而言,我们进行了广泛的分析,以解决三个关键的研究问题。Q1:在现实情况下,经过编辑的LLM是否能始终如一地表现得像交流人工智能?Q2:提示的改写在多大程度上导致LLM偏离编辑后的知识记忆?Q3:哪些知识特征与编辑的性能和稳健性相关?我们的实验结果揭示了现有编辑方法与LLM的实际应用之间的巨大差异。在复杂灵活但在现实应用中很常见的改写提示上,编辑性能会显著下降。进一步的分析表明,更多的流行知识记忆得更好,更容易回忆,更难有效编辑。代码公开于https://github.com/xbmxb/edit_analysis.