LLMs for Relational Reasoning: How Far are We?

828 篇文章

已下架不支持订阅

本文探讨了大型语言模型(LLM)在关系推理能力上的表现,通过归纳逻辑编程基准进行评估,发现LLM相对于较小规模的神经程序诱导系统在推理能力上存在差距,尤其是在使用自然语言提示时。实验结果显示,虽然在大上下文窗口的任务上有改善,但LLM的关系推理能力仍有待提升,现有提示技术并未普遍增强其推理性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《LLMs for Relational Reasoning: How Far are We?》的翻译。

摘要

大型语言模型(LLM)通过在广泛的下游任务上实现最先进的性能,已经彻底改变了许多领域(如自然语言处理、软件工程等)。为了实现稳健和通用的人工智能,研究LLM的推理能力的兴趣激增。尽管以前的工作采用的文本和数字推理基准相当肤浅和简单,但很难仅仅通过在这些基准上取得积极的结果来得出LLM具有强大的推理能力的结论。最近的研究表明,LLM不善于通过评估其在强化学习基准上的表现来解决需要常识性规划的顺序决策问题。在这项工作中,我们基于归纳逻辑编程(ILP)基准对几种最先进的LLM的推理能力进行了深入评估,这被广泛认为是评估逻辑程序归纳/合成系统的代表性和具有挑战性的测量,因为它需要归纳严格的因果逻辑来实现对独立同分布(IID)和分布外(OOD)测试样本的稳健推导。我们的评估表明,与模型大小小得多的神经程序诱导系统相比,最先进的LLM在推理能力方面要差得多,因为使用自然语言提示或真值矩阵提示实现的性能和泛化能力要低得多。

1 引言

2 前言

3 关系推理能力评估管道

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值