What am I missing here?: Evaluating Large Language Models for Masked Sentence Prediction

文章总结与翻译

一、主要内容

该研究聚焦大型语言模型(LLMs)在句子级预测任务中的能力局限,通过“掩码句子预测”(MSP)任务展开评估。研究背景源于当前基于Transformer的模型多依赖“下一个token预测”(NTP)训练目标,虽能保证局部流畅性,但在长程连贯性、全局语境理解及句子级重构任务中存在不足。

研究选取GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash三款商业LLM,在叙事类(ROCStories)、流程类(Recipe1M)、说明类(Wikipedia)三个领域的数据集上进行测试,每个数据集随机抽取400份测试文档。实验通过控制“掩码位置”(文档首句、尾句、中间句)和“掩码密度”(单句、多连续句)两个变量,从“保真度”(生成句与原句相似度,用BLEURT、SBERT等自动指标衡量)和“连贯性”(生成句与上下文适配度,用盲态人工偏好测试衡量)两个维度评估模型表现。

核心结果显示:所有模型整体保真度偏低(BLEURT得分极少超过0.55);领域结构对性能影响显著,流程类数据集(Recipe1M)因逻辑可预测性,保真度高于叙事类和说明类;掩码位置方面,中间句掩码时模型表现最佳,尾句掩码表现最差;连贯性上,叙事类和说明类数据集的“生成句与原句同等偏好”占比超60%,但流程类数据集中人工更偏好原句,反映出“保真度与连贯性存在反向关系”——结构化领域中模型易再现原句,但错误更显眼;开放领域中模型虽语义偏离原句,却能维持表面连贯性。同时,研究还指出数据污染(评估数据集可能含于模型训练数据)、单一人工标注、仅用商业闭源模型等局限性,并提出未来可探索层级注意力架构、MSP目标微调等改进方向。

<
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值