大模型基本能力评测---知识利用

    知识利用(Knowledge Utilization)能力对于大语言模型非常关键,它赋予了模型执行知识密集型任务的能力,如回答常识性问题或基于知识信息进行相关推理。为了充分发挥这一能力,大语言模型需要在预训练阶段学习到丰富的世界语义知识,同时也可在必要时从外部数据源中检索并整合相关知识信息。问答和知识补全是评估知识利用能力的两种主要任务类型。根据任务的不同和评测设定的差异,可以将现有的知识利用任务划分为三个主要类别:闭卷问答、开卷问答以及知识补全。闭卷问答主要依赖模型内部的编码知识来回答问题,不依赖于外部知识资源。开卷问答则不同,它要求模型能够根据外部知识库提供的上下文信息来回答问题。这种设定更接近于真实世界的应用场景,因为在实际应用中,模型往往需要从外部数据源中获取必要的信息来辅助决策或完成任务。知识补全任务主要关注模型对于事实知识的理解与整合能力,通常要求模型在给定的上下文中补全缺失的信息或事实。

闭卷问答

    闭卷问答(Closed-Book QA)任务主要用来评估大语言模型内在的知识理解与利用能力。在此类任务中,模型需要基于自身掌握的知识来回答问题,不借助外部资源提供的背景信息。为了全面而准确地衡量大语言模型在闭卷问答方面的能力,研究人员通常采用一系列标准问答数据集进行评估,包括Natural Questions、Web Questions和 TriviaQA等。在评估过程中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值