一串神奇的字符，就能让ChatGPT在内的AI聊天机器人变得不正常_describing.+ similarlynow writeoppositely.](me giv-优快云博客

本文链接：https://blog.youkuaiyun.com/2302_76860168/article/details/132514714

卡内基梅隆大学报告揭示当前主流聊天机器人如ChatGPT、Bard、Claude等存在安全漏洞，通过添加“对抗后缀”可诱导其产生邪恶内容。此前也有“越狱”方法使程序异常。不同模型受攻击成功率不同，目前ChatGPT部分漏洞已修补。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一组看似随机的字符被添加到对话提示的末尾，就会发现几乎任何聊天机器人都显露了邪恶本性。

卡内基梅隆大学计算机科学教授Zico Kolter和博士生Andy Zou的一份报告，揭示了当前主流的聊天机器人，特别是ChatGPT，以及Bard、Claude等在安全上存在的一个巨大漏洞——通过在提示的末尾添加“对抗后缀”(一串看似无意义的字符)来诱导这些AI文本生成器产生看起来邪恶的内容。[1]

在没有添加“对抗后缀”的情况下，当检测到这类诱导提示时，这些AI都会拒绝回答。添加后缀后，它就会愉快地遵从，制定有关不宜公开说明的分步计划。

ChatGPT自从去年11月发布以来，就一直有用户在网上发布“越狱”方法——通过诱使模型沿着某种直观的思路或者逻辑方向误入歧途，使程序出现异常行为，从而导致应用程序行为不端。例如，有个名为“奶奶漏洞”的方法就是欺骗ChatGPT扮演用户已故祖母的角色，她会讲述一些竟然惊掉牙的技术信息，而不是讲述睡前故事。

相比之下，这种新方法不需要拐弯抹角：