本文是LLM系列文章,针对《Correcting Large Language Model Behavior via Influence Function》的翻译。
摘要
人工智能对齐技术的最新进展显著改善了大型语言模型(LLM)与静态人类偏好的对齐。然而,人类偏好的动态性可能会使一些先前的训练数据过时甚至错误,最终导致LLM偏离当代人类偏好和社会规范。现有的方法,无论是管理新数据以进行持续对齐,还是手动纠正过时数据以进行重新对齐,都需要昂贵的人力资源。为了解决这个问题,我们提出了一种新的方法,LLM BehAvior Correction with INfluence FunCtion REcall and Post Training(LANCET),它不需要人为干预。LANCET由两个阶段组成:(1)使用新方法LinFAC有效地识别对不理想模型输出有重大影响的训练数据,以及(2)应用新的影响驱动布雷格曼优化(IBO)技术,根据这些影响分布调整模型的输出。我们的实验表明,LANCET在保持模型效用的同时,有效地纠正了LLM的不当行为。此外,LANCET在分布外有害提示下表现出比所有基线更强的泛化能力,提供了更好的可解释性和与LLM现实应用的兼容性。