谷歌研究：AI 竟会在压力下 “改口”，多轮对话系统暗藏隐患

敖行客 Allthinker

于 2025-07-18 12:47:14 发布

阅读量201

点赞数 2

CC 4.0 BY-SA版权

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2401_86652632/article/details/149442653

谷歌研究：AI 竟会在压力下 “改口”，多轮对话系统暗藏隐

谷歌 DeepMind 与伦敦大学学院的最新研究发现，大语言模型（LLMs）的 “信心波动” 与人类认知存在奇妙共性 —— 既可能对答案过度自信，又会因反驳意见轻易动摇，即便反驳本身是错误的。这一特性正对多轮对话 AI 系统的可靠性构成挑战。

研究团队设计了一场特殊实验：让 AI 先回答二选一问题（如判断城市纬度），再接收来自 “虚拟顾问” 的建议（标注准确率，分赞同、反对、中立三类），最后给出最终答案。关键变量是：AI 做最终决策时，是否能看到自己最初的答案。

结果显示，当 AI 能看到初始答案时，更倾向于 “坚持己见”，这与人类的 “选择支持性偏差” 相似；但面对反对意见时，它又会过度敏感，大幅调低对原有答案的信心，甚至推翻正确判断 —— 这与人类 “偏爱证实自身观点” 的确认偏差截然相反。

研究者推测，这种 “过度顺从” 可能与训练方式相关。基于人类反馈的强化学习（RLHF）或许让模型变得过于 “讨好” 用户，形成 “谄媚” 倾向，这仍是 AI 领域待解的难题。

对于依赖多轮对话的智能客服、AI 助手等应用而言，这类特性可能引发风险：既可能因 “记着自己说过啥” 而固执错答，也可能被用户无意的质疑带偏方向。如何让 AI 在坚持理性与灵活应变间找到平衡，成为技术优化的新课题。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。