本文是LLM系列文章,针对《Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks》的翻译。
利用LLM的编程行为:通过标准安全攻击实现双重用途
摘要
大型语言模型(LLM)指令的最新进展导致了一系列NLP任务的显著改进。不幸的是,我们发现,同样改进的能力放大了这些型号出于恶意目的的双重用途风险。双重使用很难防止,因为指令遵循功能现在可以实现来自计算机安全的标准攻击。LLM之后的这些指令的能力为恶意行为者的双重用途提供了强有力的经济激励。特别是,我们表明LLM后面的说明可以产生有针对性的恶意内容,包括仇恨言论和骗局,绕过LLM API供应商实施的网络内防御。我们的分析表明,这些内容可以经济地生成,而且成本可能低于单独的人力资源。总之,我们的研究结果表明,LLM将越来越多地吸引更复杂的对手和攻击,应对这些攻击可能需要新的缓解方法。