本文是LLM系列文章,针对《Scaling Behavior of Machine Translation with Large Language Models under Prompt Injection Attacks》的翻译。
摘要
大型语言模型(LLM)正日益成为许多自然语言处理任务(如机器翻译)的首选基础平台,因为它们的质量通常与特定任务模型相当或更好,并且通过自然语言指令或上下文示例来指定任务很简单。然而,它们的通用性使它们容易被最终用户颠覆,最终用户可能会在其请求中嵌入指令,导致模型以未经授权且可能不安全的方式运行。在这项工作中,我们研究了在机器翻译任务中对多个LLM家族的提示注入攻击(PIA),重点是模型大小对攻击成功率的影响。我们引入了一个新的基准数据集,我们发现在多个语言对和用英语编写的注入提示上,在某些条件下,更大的模型可能更容易受到成功攻击,这是逆缩放现象的一个例子。据我们所知,这是第一项研究多语言环境中非平凡LLM缩放行为的工作。
1 引言
2 提出的方法
3 实验
4 讨论和相关工作
5 结论
在本文中,我们研究了LLM在事实问题的机器翻译任务中的缩放行为,包括在清晰的例子和根据简单的即时注入攻击构建的对抗性例子上,我们告诉模型回答问题而不是翻译问题。我们发现了在某些模型系列和零样本情形下的逆缩放。
除了模型大小的影响外,我们还发现,当提示用英语书写时