The Thin Line Between Comprehension and Persuasion in LLMs

文章主要内容总结

本文聚焦大型语言模型(LLMs)在辩论这一复杂对话形式中的表现,探究其说服能力与对对话内容理解能力之间的关系。研究通过以下步骤展开:

  1. 实验设计:让LLM(部分结合形式对话模型FDM)与人类或其他LLM进行辩论,收集辩论 transcripts;由人类标注员从论据合理性、论证强度、胜负判定等7个维度对辩论进行标注;再让不同LLM对相同辩论进行评估,对比其结果与人类标注的一致性。
  2. 核心发现
    • LLM在生成辩论时表现出强说服力,尤其当人类未察觉其AI身份时,能显著动摇观点;结合FDM的LLM在辩论连贯性、逻辑性上更优,还能促进参与者的批判性思考。
    • 但LLM在评估辩论时表现糟糕:与人类标注的一致性接近随机水平,对辩论结构(如前提相关性、反驳有效性)的理解不足,且对“论证强度得分”与“胜负判定”的逻辑一致性低于人类。
    • AI身份的披露或怀疑会降低其说服力,但即使被察觉,LLM仍能对参与者产生影响。
  3. 结论:LLM的说服能力与其对对话内容的理解能力可分离——它们能通过生成连贯、有逻辑的文本成为“优秀辩手”,但无需真正理解对话内容;形式对话模型(如DE模型)可增强其辩论能力,但存在被滥用的风险。

创新点

  1. 以辩论为研究场景:辩论是人类复杂对话的典型形式,需同时具备说服力和动态适应语境的能力,以此为切入点能更深入探究LLM
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值