Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks

828 篇文章

已下架不支持订阅

本文揭示了大型语言模型(LLM)在提高NLP任务性能的同时,其指令遵循能力也可能被用于恶意目的。攻击者可以利用LLM产生针对性的恶意内容,如仇恨言论和欺诈,甚至绕过API供应商的防御措施。研究表明,这种恶意内容的生成成本低廉,可能引发更复杂的攻击,需要新的缓解策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks》的翻译。

摘要

大型语言模型(LLM)指令的最新进展导致了一系列NLP任务的显著改进。不幸的是,我们发现,同样改进的能力放大了这些型号出于恶意目的的双重用途风险。双重使用很难防止,因为指令遵循功能现在可以实现来自计算机安全的标准攻击。LLM之后的这些指令的能力为恶意行为者的双重用途提供了强有力的经济激励。特别是,我们表明LLM后面的说明可以产生有针对性的恶意内容,包括仇恨言论和骗局,绕过LLM API供应商实施的网络内防御。我们的分析表明,这些内容可以经济地生成,而且成本可能低于单独的人力资源。总之,我们的研究结果表明,LLM将越来越多地吸引更复杂的对手和攻击,应对这些攻击可能需要新的缓解方法。

1 引言

2 LLMs行为像程序

3 攻击LLMs

4 攻击绕过LLM提供程序防御

5 指令跟随LLM产生有用的恶意生成

6 经济分析</

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值