GPT-4推理能力暴涨32%,谷歌新型思维链效果超CoT,计算成本可降至1/40

谷歌和南加州大学联合研究出的新方法‘自发现’,让大模型在处理复杂任务时表现出色,推理成本降低,且更接近人类思考。通过‘千人千面’策略,大模型针对不同问题构建特定推理结构,实验显示在BBH、T4D、MATH基准中,性能显著提升。
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

GPT-4推理能力还能暴涨32%?

谷歌&南加大推出最新研究“自我发现”(Self-Discover),重新定义了大模型推理范式。

与已成行业标准的思维链(CoT)相比,新方法不仅让模型在面对复杂任务时表现更佳,还把同等效果下的推理成本压缩至1/40

3eb6272987f9640b096a8dcfa25a1e4f.png

核心策略其实很简单:千人千面

让大模型针对不同问题,提出特定的推理结构。完全不同于以往CoT等方法“千篇一律”的方式。

2674a69385f86df71b3fda1c8dc1f55f.png

这种灵活应变的方式,更加贴近于人类的思考模式,也向着期待中的大模型思维方式更进一步。

6ba67f3828c7862b41b2328c73541dc0.png

大模型“千人千面”

一直以来大模型在处理复杂问题时都容易遇到困难,所以一些模拟人类思维能力的提示方法被提出。

最出名的就是思维链(CoT),它通过引导大模型“一步一步来”,让大模型能像人类一样逐步思考解决问题,最终带来显著性能提升。

还有分解法(decomposition-based prompting),它是让大模型将复杂问题拆解成一个个更小的子问题。

这类方法本身都能充当一个原子推理模块,对给定任务的处理过程做了先验假设,也就是让不同问题都套到同一个流程里解决。

但是不同方法其实都有更擅长和不擅长的领域。比如在解决涉及符号操作等问题时,分解法要优于CoT。

所以研究人员提出,对于每个任务,都应该有独特的内在推理过程,同时还不提高模型的推理成本。

cd062bb935f275893f066beb9e4fb5e0.png

自发现步骤架构由此而来。

它主要分为两个阶段。

第一阶段指导大语言模型从原子推理模块中进行挑选、调整、整合,搭建出一个可以解决特定任务的推理结构。

比如“创造思维”可能在创作故事任务上有帮助、“反思思考”可能对搜索科学问题有帮助等。大模型需要根据任务进行挑选,然后进一步调整并完成整合。

0a700c79271e28d0b11e7bc2280c6833.png

第二阶段输入实例,让大模型使用第一阶段发现的推理结构来生成答案。

c45602df7576cc969ce97c71addfdb9a.png

通过在GPT-4和PaLM 2上进行实验,在BBH、T4D、MATH几个基准中,使用自发现步骤架构后,模型的性能都有明显提升。

020318ce45609dac5a458e53ee6172ba.png

在更细分的测试中,自发现步骤在需要世界知识的任务中表现最好,在算法、自然语言理解上超过CoT。

17f8d0adb4aabb3e5b4948f70f4dcd1d.png

在处理问题的推理调用方面,自发现步骤需要的调用次数明显少于CoT+Self Consistency,而且准确性更高。

如果想要达到和自发现步骤同样的准确率,需要的推理计算量则是其40倍。

b6f89e1c6db545648e2dfda6004f70af.png

研究团队

本项研究由南加州大学和谷歌DeepMind联合推出。

第一作者是Pei Zhou,他现在正在南加州大学的NLP小组攻读博士。

两位通讯作者分别是Huaixiu Zheng和Swaroop Mishra。

Huaixiu Zheng此前参与过谷歌LaMDA工作,这是谷歌一个专攻对话的大模型。

Swaroop Mishra是谷歌DeepMind的研究科学家,它参与的Self-Instruct框架在GitHub上星标3.5k、被引用次数超过600,并被ACL 2023接收。

此外Quoc Le、Denny Zhou等大模型提示微调、推理方向的老面孔也参与其中。

虽然官方暂未开源,但已经有迫不及待的开发者根据论文自行复现了代码。

发现不仅适用于GPT-4和谷歌PaLM,连Mistral家泄露版模型Miqu上都能很好发挥作用。

b346deffa3c05db862a5bb4e3daf4c35.png

论文地址:
https://arxiv.org/abs/2402.03620

—  —

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值