该文章核心是研究大型语言模型(LLMs)对条件句可接受性的判断机制,对比人类判断模式,揭示模型在整合概率与语义关联上的特点及局限。其创新点在于首次系统探究LLMs的条件句可接受性判断,并发现模型大小与人类判断的一致性无正相关、提示策略会影响模型对语义关联的敏感度等关键结论。
一、文章主要内容
- 研究背景与核心概念
- 条件句可接受性指人们对“如果A,那么B”这类语句合理性的感知,受两个关键因素影响:一是B基于A的条件概率(P(B|A)),二是A与B的语义关联(A是否对B有实质支持作用)。
- 人类判断中,即便条件概率高,若A与B无语义关联(如“如果马克穿袜子,那么他的电视能正常工作”),条件句可接受性也会很低,但LLMs在该领域的判断机制此前未被系统研究。
- 研究设计
- 数据集:采用Skovgaard-Olsen等人2016年的数据集,包含144个条件句,覆盖3种语义关联类型(正向支持POS、负向矛盾NEG、无关IRR)和4种先验概率组合(高-高、高-低、低-高、低-低),每个条件句均嵌入日常场景中。
- 模型与提示策略:测试4个LLM模型(Llama 3.1的8B和70B版本、Qwen 2.5的7B和72B版本),采用零样本(vanilla)、少样本(few-shot)和思维链(CoT)三种提示策略,每个样本重复提示5次以确保结果稳定性。
- 任务设置:让模型完成三
订阅专栏 解锁全文
1757

被折叠的 条评论
为什么被折叠?



