【大语言模型】ACL2024论文-31 每个答案都很重要:用概率度量评估常识

【大语言模型】ACL2024论文-31 每个答案都很重要:用概率度量评估常识


目录


文章

每个答案都很重要:用概率度量评估常识
在这里插入图片描述
https://arxiv.org/pdf/2406.04145

摘要

大型语言模型在常识任务上表现出了令人印象深刻的性能,但这些任务通常以多项选择题的形式提出,允许模型利用系统性偏见。常识本身也是概率性的,有多个正确答案。例如,“烧开水”的目的可能是泡茶、烹饪,也可能是杀菌。现有任务没有捕捉到常识的概率性质。因此,我们提出了一种新的生成性任务——常识框架补全(CFC),通过多个开放式生成来评估常识。我们还提出了一种与人类判断强烈相关的概率评估方法。人类在我们的数据集上大幅超越了强大的语言模型基线,表明这种方法既是对机器常识的挑战性评估,也是有用的评估。

研究背景

大多数现有的常识评估使用多项选择题(MCQA)任务,这种格式提供了对常识的有限视角。MCQA任务通过不切实际的小答案集简化了问题,而且使选项变得困难是困难的。更重要的是,常识是隐性的——理解那些因为它们是常识而未被明确表述的假设。MCQA通过显式评估常识,未能捕捉模型在未提示的、生成性情境中利用这些知识的能力。MCQA也与常识本身是概率性的、应该如此评估的事实不符。为了避免MCQA的问题,许多最近的基准测试提出了生成性常识评估。然而,生成性评估没有反映出通常有多个正确答案的事实,特别是对于常识问题。

在这里插入图片描述
在这里插入图片描述

问题与挑战

现有评估方法未能捕捉常识的概率性质和隐性特征,导致模型在实际应用中可能无法准确理解和生成与常识相关的信息。此外,现有任务未能充分考虑常识理解中的多样性和复杂性,特别是在面对多个可能的正确答案时。

如何解决

为了解决这些问题,研究者们提出了常识框架补全(CFC)任务,该任务通过识别给定上下文中的缺失信息来强调常识的隐性特征。此外,研究者们还提出了一种新的概率评估方法,通过将答案字符串集转换为类别分布,并计算这些分布之间的KL散度来评估模型。

创新点

  1. 提出了常识框架补全(CFC)任务,这是一种新的生成性任务,通过多个开放式生成来评估常识。
  2. 提出了一种与人类判断强烈相关的概率评估方法,该方法通过比较模型生成的答案分布与人类答案分布之间的KL散度来评估模型。
  3. 引入了自动化的聚类和对齐机制,允许直接通过比较分布来评估模型。

算法模型

常识框架补全(CFC)任务

CFC任务旨在评估隐性常识,通过识别给定上下文中的缺失信息来构建任务。研究者们从CommonGen数据集中选取日常场景的短句,通过AMR(Abstract Meaning Representation)进行语义解析,识别缺失的槽,并由众包工作者注释缺失槽的值。

概率评估方法(PROBEVAL)

PROBEVAL是一种自动化评估方法,它通过以下步骤评估模型生成的答案集与人类答案集之间的相似性:

  1. 将人类答案集G嵌入向量空间。
  2. 自动聚类嵌入以获得G的答案集群。
  3. 将模型生成的答案H中的元素与G的答案集群匹配。
  4. 计算两个分布之间的KL散度。

实验效果

重要数据与结论
  • 在CFC和ProtoQA数据集上,PROBEVAL与人类判断的相关性高于基线评估方法。
  • 在CFC任务上,大型模型(如GPT3.5和GPT4)或微调的GPT2模型表现最佳,但与人类表现仍有较大差距。
  • 通过不同的采样策略模拟模型预测中常见的错误类型,PROBEVAL在评估包含错误排名和错误分数的预测时,与人类评估的相关性显著高于ProtoQA评估器。

推荐阅读指数:★★★★☆


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sp_fyf_2024

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值