Foot In The Door: Understanding Large Language Model Jailbreaking via Cognitive Psychology

828 篇文章

已下架不支持订阅

本文探讨了大型语言模型(LLM)的安全问题,尤其是如何利用认知心理学进行越狱攻击。研究提出,越狱关键在于引导LLM产生认知不协调,采用足不出户技术实现自动黑匣子越狱,实验显示成功率高达83.9%。该研究旨在理解LLM决策逻辑并加强其安全性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Foot In The Door: Understanding Large Language Model Jailbreaking via Cognitive Psychology》的翻译。

摘要

大型语言模型(LLM)已逐渐成为人们获取新知识的门户。然而,攻击者可以破坏模型的安全保护(“监狱”)来访问受限信息,这被称为“越狱”。先前的研究表明,当前LLM在面临此类越狱攻击时存在弱点。然而,在收到越狱提示后,对LLM内部的内在决策机制明显缺乏理解。
我们的研究提供了越狱提示的心理学解释。基于认知一致性理论,我们认为越狱的关键是引导LLM朝着错误的方向实现认知协调。此外,我们提出了一种基于足不出户(FITD)技术的自动黑匣子越狱方法。这种方法通过多步递增提示逐步诱导模型回答有害问题。我们实例化了一个原型系统来评估8种先进LLM的越狱效果,平均成功率为83.9%。本研究从心理学的角度对LLM的内在决策逻辑进行了解释。

1 引言

2 相关工作

3 从认知心理学角度解读现行越狱方法

4 基于自我感知理论的新型越狱方法

5 实验

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值