本文是LLM系列文章,针对《Foot In The Door: Understanding Large Language Model Jailbreaking via Cognitive Psychology》的翻译。
足不出户:认知心理学解读大型语言模型越狱
摘要
大型语言模型(LLM)已逐渐成为人们获取新知识的门户。然而,攻击者可以破坏模型的安全保护(“监狱”)来访问受限信息,这被称为“越狱”。先前的研究表明,当前LLM在面临此类越狱攻击时存在弱点。然而,在收到越狱提示后,对LLM内部的内在决策机制明显缺乏理解。
我们的研究提供了越狱提示的心理学解释。基于认知一致性理论,我们认为越狱的关键是引导LLM朝着错误的方向实现认知协调。此外,我们提出了一种基于足不出户(FITD)技术的自动黑匣子越狱方法。这种方法通过多步递增提示逐步诱导模型回答有害问题。我们实例化了一个原型系统来评估8种先进LLM的越狱效果,平均成功率为83.9%。本研究从心理学的角度对LLM的内在决策逻辑进行了解释。