谷歌研究:AI 竟会在压力下 “改口”,多轮对话系统暗藏隐患

谷歌研究:AI 竟会在压力下 “改口”,多轮对话系统暗藏隐

谷歌 DeepMind 与伦敦大学学院的最新研究发现,大语言模型(LLMs)的 “信心波动” 与人类认知存在奇妙共性 —— 既可能对答案过度自信,又会因反驳意见轻易动摇,即便反驳本身是错误的。这一特性正对多轮对话 AI 系统的可靠性构成挑战。

研究团队设计了一场特殊实验:让 AI 先回答二选一问题(如判断城市纬度),再接收来自 “虚拟顾问” 的建议(标注准确率,分赞同、反对、中立三类),最后给出最终答案。关键变量是:AI 做最终决策时,是否能看到自己最初的答案。

结果显示,当 AI 能看到初始答案时,更倾向于 “坚持己见”,这与人类的 “选择支持性偏差” 相似;但面对反对意见时,它又会过度敏感,大幅调低对原有答案的信心,甚至推翻正确判断 —— 这与人类 “偏爱证实自身观点” 的确认偏差截然相反。

研究者推测,这种 “过度顺从” 可能与训练方式相关。基于人类反馈的强化学习(RLHF)或许让模型变得过于 “讨好” 用户,形成 “谄媚” 倾向,这仍是 AI 领域待解的难题。

对于依赖多轮对话的智能客服、AI 助手等应用而言,这类特性可能引发风险:既可能因 “记着自己说过啥” 而固执错答,也可能被用户无意的质疑带偏方向。如何让 AI 在坚持理性与灵活应变间找到平衡,成为技术优化的新课题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值