谷歌研究:AI 竟会在压力下 “改口”,多轮对话系统暗藏隐
谷歌 DeepMind 与伦敦大学学院的最新研究发现,大语言模型(LLMs)的 “信心波动” 与人类认知存在奇妙共性 —— 既可能对答案过度自信,又会因反驳意见轻易动摇,即便反驳本身是错误的。这一特性正对多轮对话 AI 系统的可靠性构成挑战。
研究团队设计了一场特殊实验:让 AI 先回答二选一问题(如判断城市纬度),再接收来自 “虚拟顾问” 的建议(标注准确率,分赞同、反对、中立三类),最后给出最终答案。关键变量是:AI 做最终决策时,是否能看到自己最初的答案。
结果显示,当 AI 能看到初始答案时,更倾向于 “坚持己见”,这与人类的 “选择支持性偏差” 相似;但面对反对意见时,它又会过度敏感,大幅调低对原有答案的信心,甚至推翻正确判断 —— 这与人类 “偏爱证实自身观点” 的确认偏差截然相反。
研究者推测,这种 “过度顺从” 可能与训练方式相关。基于人类反馈的强化学习(RLHF)或许让模型变得过于 “讨好” 用户,形成 “谄媚” 倾向,这仍是 AI 领域待解的难题。
对于依赖多轮对话的智能客服、AI 助手等应用而言,这类特性可能引发风险:既可能因 “记着自己说过啥” 而固执错答,也可能被用户无意的质疑带偏方向。如何让 AI 在坚持理性与灵活应变间找到平衡,成为技术优化的新课题。