Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue

828 篇文章

已下架不支持订阅

本文揭示了大型语言模型(LLM)在多轮对话中的安全漏洞,指出即使在单轮对话中表现安全的LLM,也可能在多轮对话中被诱导产出有害信息。通过实验展示了如何通过多轮对话逐渐引导LLM回答有害问题,强调了LLM在复杂对话场景中的安全挑战,并提出了缓解策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章, 针对《Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue》的翻译。

说话不按顺序:大型语言模型在多轮对话中的安全漏洞

摘要

大型语言模型(LLM)已被证明会产生非法或不道德的反应,尤其是在遭受“越狱”时。对越狱的研究强调了LLM的安全问题。然而,先前的研究主要集中在单轮对话上,忽略了多轮对话带来的潜在复杂性和风险,多轮对话是人类从LLM中获取信息的关键模式。在本文中,我们认为人类可以利用多轮对话来诱导LLM产生有害信息。LLM可能不打算拒绝警告性或边缘不安全的查询,即使在多轮对话中,每回合都有一个恶意目的。因此,通过将一个不安全的查询分解为多个子查询进行多轮对话,我们诱导LLM逐步回答有害的子问题,最终得到总体有害的响应。我们在广泛的LLM中进行的实验表明,LLM在多轮对话中的安全机制目前存在不足。我们的研究结果暴露了LLM在涉及多轮对话的复杂场景中的漏洞,给LLM的安全带来了新的挑战。

1 引言

2 背景

3 LLM在多轮对话中的安全漏洞

4 实验

5 讨论与缓解

在本文中,我们强调当前语言模型的安全比对忽略了多轮对话。虽然单轮对话的安全对齐可以防止有害内容的直接输出,但简单的提示工程可以生成有害对话。我们提出了一种已证明可行的生成多轮恶意子查询的范例,该范例可以由人类或LLM执行。

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值