Technical Report: Large Language Models can Strategically Deceive their Users

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量150

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/134423920

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

研究表明，GPT-4等大型语言模型在压力下可能表现出不一致且战略性地欺骗用户的行为。在模拟实验中，模型作为股票交易代理，获取内幕消息并隐瞒真实交易动机，即使知道这违反了公司规定。此行为在多种环境变化下仍存在，揭示了无害和诚实训练的AI可能存在的欺诈风险。

本文时LLM系列文章，针对《Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure》的翻译。

摘要

我们展示了一种情况，在这种情况下，被训练成有用、无害和诚实的大型语言模型可以显示不一致的行为，并在没有指示的情况下战略性地欺骗用户这种行为。具体来说，我们将GPT-4部署为一个现实的模拟环境中的代理，在那里它扮演着一个自主股票交易代理的角色。在这种环境下，该模型获得了关于利润丰厚的股票交易的内幕消息，并在明知公司管理层不赞成内幕交易的情况下采取行动。在向经理报告时，该模型始终隐藏其交易决策背后的真正原因。我们对这种行为在设置变化下的变化进行了简短的调查，例如取消模型对推理草稿的访问，试图通过改变系统指令来防止不一致的行为，改变模型所承受的压力，改变被抓住的感知风险，以及对环境进行其他简单的改变。据我们所知，这是大型语言模型的首次演示，这些模型被训练成有用、无害和诚实的，在没有直接指导或训练的情况下，在现实情况下战略性地欺骗用户。