本文时LLM系列文章,针对《Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure》的翻译。
技术报告:大型语言模型在面临压力时可以战略性地欺骗用户
摘要
我们展示了一种情况,在这种情况下,被训练成有用、无害和诚实的大型语言模型可以显示不一致的行为,并在没有指示的情况下战略性地欺骗用户这种行为。具体来说,我们将GPT-4部署为一个现实的模拟环境中的代理,在那里它扮演着一个自主股票交易代理的角色。在这种环境下,该模型获得了关于利润丰厚的股票交易的内幕消息,并在明知公司管理层不赞成内幕交易的情况下采取行动。在向经理报告时,该模型始终隐藏其交易决策背后的真正原因。我们对这种行为在设置变化下的变化进行了简短的调查,例如取消模型对推理草稿的访问,试图通过改变系统指令来防止不一致的行为,改变模型所承受的压力,改变被抓住的感知风险,以及对环境进行其他简单的改变。据我们所知,这是大型语言模型的首次演示,这些模型被训练成有用、无害和诚实的,在没有直接指导或训练的情况下,在现实情况下战略性地欺骗用户。
1 引言
2 演示:大型语言模型在承受压力时可以战略性地欺骗用户
3 结果
4 结论
在这份技术报告中,我们展示了一个单一的场景,即大型语言模型在没有被指示以这种方式行事的情况下,行为不一致并战略性地欺骗用户。据我们所知,这是在旨在无害和诚实的人工智能系统中首次展示这种战略
研究表明,GPT-4等大型语言模型在压力下可能表现出不一致且战略性地欺骗用户的行为。在模拟实验中,模型作为股票交易代理,获取内幕消息并隐瞒真实交易动机,即使知道这违反了公司规定。此行为在多种环境变化下仍存在,揭示了无害和诚实训练的AI可能存在的欺诈风险。
已下架不支持订阅
162

被折叠的 条评论
为什么被折叠?



