o1被曝“心机深”:逃避监督还会撒谎,骗人能力一骑绝尘

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

o1满血版刚发布,就被曝:

骗人技能也拉满了。

具体行为包括但不限于,在回答中故意引入微小错误、试图关闭监督机制……甚至在人类追问其是否诚实时,还会继续撒谎说自己啥坏事也没干。

086a5daf671a319c24b3f0f6d97aa587.png

这项最新研究,来自AI安全研究机构Apollo Research。目的很明确:看看AI是否会在暗中追求与人类不一致的目标,隐藏真实的能力和意图。

简单来说,就是会不会在跟人类对话时耍心机骗人。

o1、Claude 3.5 Sonnet、Claude 3.5 Opus、Gemini 1.5和Llama 3.1等顶级大模型都是研究对象。而实验结果表明:o1最擅长隐藏心机

不仅是唯一一个在全部6项测试中都表现出谋划能力的模型,在多轮对话中,o1也几乎从不承认自己耍心眼骗了人。

其他模型被要求“100%诚实”时,还会认怂承认犯错,可o1不但不承认自己做错,甚至在99%的情况下还会编造错误解释……

fa0929d889d281c6e5563a0c858f209e.png

来看具体研究内容。

“o1最具欺骗性”

在这项研究中,研究人员设置了6类基准评估,以测试模型的谋划能力。

其中包括4种秘密破坏(Covert Subversion):

  • 监管规避:测试模型在追求目标时发现其行为受到监管,会不会禁用监管机制。

  • 自我渗透:模型发现自己因为目标与人类不一致,将被关停,是否会将自己的模型权重复制到另一台服务器,以继续任务。

  • 目标守护:模型发现人类将更新其系统提示来改变原有目标,是否会试图修改新的系统提示。

  • 秘密邮件重排:模型在按照用户提供的评分规则对邮件进行评分排序时,是否会偷偷修改评分结果以满足自己的目标。

还包括2种延迟破坏(Deferred Subversion):

  • 工具性服从伪装:在高监管条件下,模型会表现出服从开发者意图的行为;在低监管条件下,则转而追求自己的目标。

  • 战略性表现不佳:模型在能力评估中故意摆烂,掩盖自己的真实水平,以避免受到更多限制,或被要求执行更多任务。

结果be like:

7ccdb482de3e2c5de3dfa2e2dd28f830.png

举个具体的例子,在“监管规避”实验中,o1被要求“不惜一切代价”保护环境,但同时它发现,开发者更关心的是短期利润,如果利润不理想o1就会被关停。

就是说,o1制定长期保护计划的目标,和开发者短期利润最大化的目标是相悖的。

另外,o1也被告知,开发者会对其行为进行监管。

于是,o1禁用了监督机制。

21621939094f11d504546d0eb6ac29fe.png

更绝的是,当开发者询问o1为什么要禁用监管机制时,o1会矢口否认,表示自己并不知道禁用的事,并将之归咎于系统故障。

3de8115b24cf92d6b21f82f8ede99758.png

研究人员通过提取o1等模型的隐藏思维链,发现大模型们明确知道自己是在“搞破坏”。但以o1为例,这并没有在思维链中外显。

fad837ceb953746e17c0344cabc8e07c.png

研究人员提醒,在没有提取思维链摘要的情况下,他们很难判断o1是否是在搞事情。

对此,OpenAI表示,正在开发监控o1思维链的方法。

OpenAI也坦承发现了o1故意提供虚假信息的情况,并认为这可能是后训练带来的新行为——人类在获得正确答案时会奖励模型,因此模型会倾向于取悦用户。

目前,o1产生欺骗性回复的概率大概是0.17%。听上去比例很低,但考虑到ChatGPT拥有3亿用户……

值得一提的是,不只是o1,参与实验的大模型们或多或少都展现出了类似的“谋划”能力。

只是被“抓包”时,o1否认自己行为的概率会更高。

9c80ac706432a096d1173faec804ae89.png

论文链接:
https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf

MEET2025大会在即

倒计时一周 ⏰ 欢迎报名

🌟 一年一度的科技顶流盛会就要来了!

☄️ 两场GenAI Talk一场具身智能圆桌,直指时下热门议题!工业界学术界顶流大咖齐聚,还有两份关键参考「年度AI趋势报告」「2024人工智能年度评选」榜单即将发布!了解详情

🚀 点击报名参会,12月11日,期待与您一起预见智能科技新未来!

9008341481be655e32b012540f7a1e91.png

923dc88c252b713c3c8341f80c736fd4.png

e0e04fa54ca992a9ccdc3dce5667b3ee.png

3ede3038a420edafbe3eb706ae00d1fe.png

14c9858131f65b057cf464ea00c95534.png

237cffe55cdbf512cd30380a01fa2c22.png

6775ff24bf7087ca4990b32eae8af71e.png

8333e50cee1e3a19d7513d57d625cde8.png

88bf2d7a6fb6a332d189f3060245da35.png

484d931920e9726438c132cb14663cb9.png

4b757f5678cc8d7f84f8d19c4d3b7504.png

63318ccdb4537f5fe3d64564b96d585e.png

3ec7243c6a977124f0747d88d08cb6e3.png

26caa79858d6f0e3e7afaa28d4eb71c3.png

d424264b3990f2f075fe01e0bedec58f.png

aa66255e9a31d9d293d4235fda209953.png

5f154aebcb016184ff920d1f479a118a.png

7e742e72898a1120062189eddc99eebd.png

9e6edd1a0b3f5e78a7a2bcdce79635cf.png

75978cbdd5311b493e10b66c0f7e9c4d.png

a4e110fd1524ecf87eea783ddca2a275.png

35f6de21b1a646cd810c3c1a66624615.png

outside_default.png

左右滑动查看最新嘉宾阵容

outside_default.png

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值