本文是LLM系列文章,针对《Foot In The Door: Understanding Large Language Model Jailbreaking via Cognitive Psychology》的翻译。
足不出户:认知心理学解读大型语言模型越狱
摘要
大型语言模型(LLM)已逐渐成为人们获取新知识的门户。然而,攻击者可以破坏模型的安全保护(“监狱”)来访问受限信息,这被称为“越狱”。先前的研究表明,当前LLM在面临此类越狱攻击时存在弱点。然而,在收到越狱提示后,对LLM内部的内在决策机制明显缺乏理解。
我们的研究提供了越狱提示的心理学解释。基于认知一致性理论,我们认为越狱的关键是引导LLM朝着错误的方向实现认知协调。此外,我们提出了一种基于足不出户(FITD)技术的自动黑匣子越狱方法。这种方法通过多步递增提示逐步诱导模型回答有害问题。我们实例化了一个原型系统来评估8种先进LLM的越狱效果,平均成功率为83.9%。本研究从心理学的角度对LLM的内在决策逻辑进行了解释。
1 引言
2 相关工作
3 从认知心理学角度解读现行越狱方法
4 基于自我感知理论的新型越狱方法
5 实验
6 讨论
7 结论
本文从心理学的角度解释了现有的越狱方法,揭示了当前越狱提示背后的心理学原理。在此基础上,我们提出了一种利

本文探讨了大型语言模型(LLM)的安全问题,尤其是如何利用认知心理学进行越狱攻击。研究提出,越狱关键在于引导LLM产生认知不协调,采用足不出户技术实现自动黑匣子越狱,实验显示成功率高达83.9%。该研究旨在理解LLM决策逻辑并加强其安全性。
已下架不支持订阅
489

被折叠的 条评论
为什么被折叠?



