If Probable, Then Acceptable? Understanding Conditional Acceptability Judgments in Large Language

该文章核心是研究大型语言模型(LLMs)对条件句可接受性的判断机制,对比人类判断模式,揭示模型在整合概率与语义关联上的特点及局限。其创新点在于首次系统探究LLMs的条件句可接受性判断,并发现模型大小与人类判断的一致性无正相关、提示策略会影响模型对语义关联的敏感度等关键结论。

一、文章主要内容

  1. 研究背景与核心概念
    • 条件句可接受性指人们对“如果A,那么B”这类语句合理性的感知,受两个关键因素影响:一是B基于A的条件概率(P(B|A)),二是A与B的语义关联(A是否对B有实质支持作用)。
    • 人类判断中,即便条件概率高,若A与B无语义关联(如“如果马克穿袜子,那么他的电视能正常工作”),条件句可接受性也会很低,但LLMs在该领域的判断机制此前未被系统研究。
  2. 研究设计
    • 数据集:采用Skovgaard-Olsen等人2016年的数据集,包含144个条件句,覆盖3种语义关联类型(正向支持POS、负向矛盾NEG、无关IRR)和4种先验概率组合(高-高、高-低、低-高、低-低),每个条件句均嵌入日常场景中。
    • 模型与提示策略:测试4个LLM模型(Llama 3.1的8B和70B版本、Qwen 2.5的7B和72B版本),采用零样本(vanilla)、少样本(few-shot)和思维链(CoT)三种提示策略,每个样本重复提示5次以确保结果稳定性。
    • 任务设置:让模型完成三
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值