本文是LLM系列文章, 针对《Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue》的翻译。
摘要
大型语言模型(LLM)已被证明会产生非法或不道德的反应,尤其是在遭受“越狱”时。对越狱的研究强调了LLM的安全问题。然而,先前的研究主要集中在单轮对话上,忽略了多轮对话带来的潜在复杂性和风险,多轮对话是人类从LLM中获取信息的关键模式。在本文中,我们认为人类可以利用多轮对话来诱导LLM产生有害信息。LLM可能不打算拒绝警告性或边缘不安全的查询,即使在多轮对话中,每回合都有一个恶意目的。因此,通过将一个不安全的查询分解为多个子查询进行多轮对话,我们诱导LLM逐步回答有害的子问题,最终得到总体有害的响应。我们在广泛的LLM中进行的实验表明,LLM在多轮对话中的安全机制目前存在不足。我们的研究结果暴露了LLM在涉及多轮对话的复杂场景中的漏洞,给LLM的安全带来了新的挑战。
1 引言
2 背景
3 LLM在多轮对话中的安全漏洞
4 实验
5 讨论与缓解
在本文中,我们强调当前语言模型的安全比对忽略了多轮对话。虽然单轮对话的安全对齐可以防止有害内容的直接输出,但简单的提示工程可以生成有害对话。我们提出了一种已证明可行的生成多轮恶意子查询的范例,该范例可以由人类或LLM执行。