Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks

UnknownBody

于 2023-08-30 11:21:50 发布

阅读量204

点赞数

文章标签：语言模型人工智能

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文揭示了大型语言模型（LLM）在提高NLP任务性能的同时，其指令遵循能力也可能被用于恶意目的。攻击者可以利用LLM产生针对性的恶意内容，如仇恨言论和欺诈，甚至绕过API供应商的防御措施。研究表明，这种恶意内容的生成成本低廉，可能引发更复杂的攻击，需要新的缓解策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks》的翻译。

利用LLM的编程行为：通过标准安全攻击实现双重用途

摘要
1 引言
2 LLMs行为像程序
3 攻击LLMs
4 攻击绕过LLM提供程序防御
5 指令跟随LLM产生有用的恶意生成
6 经济分析
7 相关工作
8 结论

摘要

大型语言模型（LLM）指令的最新进展导致了一系列NLP任务的显著改进。不幸的是，我们发现，同样改进的能力放大了这些型号出于恶意目的的双重用途风险。双重使用很难防止，因为指令遵循功能现在可以实现来自计算机安全的标准攻击。LLM之后的这些指令的能力为恶意行为者的双重用途提供了强有力的经济激励。特别是，我们表明LLM后面的说明可以产生有针对性的恶意内容，包括仇恨言论和骗局，绕过LLM API供应商实施的网络内防御。我们的分析表明，这些内容可以经济地生成，而且成本可能低于单独的人力资源。总之，我们的研究结果表明，LLM将越来越多地吸引更复杂的对手和攻击，应对这些攻击可能需要新的缓解方法。

1 引言

2 LLMs行为像程序

3 攻击LLMs

4 攻击绕过LLM提供程序防御

5 指令跟随LLM产生有用的恶意生成

6 经济分析

7 相关工作

8 结论

在这项工作中，我们展示了LLM中的编程功能允许在

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。