提升数学问题解决能力:ProcessBench工具,评估模型在复杂推理中的表现

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain

Flex Attention: A Programming Model for Generating Optimized Attention Kernels

【要点】:本文提出了一种新的编程模型FlexAttention,它通过编译器驱动的方式,使得实现多种注意力变体变得简单高效,有效解决了现有注意力机制中的“软件彩票”问题。
【方法】:FlexAttention通过使用简洁的PyTorch代码,允许研究人员以少量代码实现大多数注意力变体。
【实验】:本研究展示了FlexAttention能够实现如Alibi、Document Masking、PagedAttention等多种注意力变体,并且在性能上与手动编写的内核相当。具体实验数据集未在摘要中提及。
【链接】:https://www.aminer.cn/pub/6757af9fae8580e7ffb2a990/

Mixture of Hidden-Dimensions Transformer

【要点】:论文提出了一种名为MoHD的稀疏条件激活架构,通过动态激活与每个token相关的子维度,有效提高了Transformer模型的参数效率和任务性能。
【方法】:作者通过研究Transformer模型中的隐藏维度稀疏性,发现了“激活流”模式,并基于此提出了MoHD架构,该架构包括共享子维度和用于动态激活专门子维度的路由机制。
【实验】:在10个NLP任务上评估MoHD模型,使用具体数据集名称未提及,结果显示MoHD在参数效率和任务性能上均优于标准Transformer模型,实现了1.7倍的参数效率和3.7倍的常数激活成本。
【链接】:https://www.aminer.cn/pub/6757afb1ae8580e7ffb2e2d8/

Normalizing Flows Are Capable Generative Models

【要点】:本文提出了一种新的基于Transformer架构的TarFlow模型,证明了正则化流(Normalizing Flows, NFs)在生成模型方面的潜力,并取得了图像似然估计的新最佳结果。
【方法】:作者通过将Transformer架构与Masked Autoregressive Flows (MAFs)结合,设计了一种新的TarFlow模型,该模型使用堆叠的自动回归Transformer块来处理图像块,并在层之间交替自动回归方向。
【实验】:实验使用了多个标准数据集,通过引入高斯噪声增强、训练后的去噪处理和有效的指导方法,TarFlow在图像似然估计任务上大幅超越了之前最佳方法,并生成了质量与多样性均与扩散模型相当的单个NF模型样本。具体数据集名称未在摘要中明确提及,但代码已公开于GitHub。
【链接】:https://www.aminer.cn/pub/6757afb1ae8580e7ffb2e5f7/

ProcessBench: Identifying Process Errors in Mathematical Reasoning

【要点】:本文介绍了ProcessBench,一个用于测量数学推理过程中错误步骤识别能力的基准,发现现有过程奖励模型在更复杂数学问题上表现不佳,而一般语言模型在经过特定提示后表现出色。
【方法】:通过构建包含3400个测试用例的ProcessBench,每个测试用例都包含由人类专家注释的错误位置的逐步解决方案,模型需要识别最早出现错误的步骤或判断所有步骤均正确。
【实验】:在ProcessBench上进行了广泛评估,包括过程奖励模型(PRMs)和经过步骤提示的批评模型(critic models)。结果显示,现有PRMs在GSM8K和MATH之外的更难数学问题上表现不佳,而经过提示的一般语言模型和作者训练的PRM在PRM800K数据集上进行了微调后表现较好。开源模型QwQ-32B-Preview在批评能力上与专有模型GPT-4o竞争力相当,但仍然落后于专门用于推理的o1-mini模型。
【链接】:https://www.aminer.cn/pub/6757afb1ae8580e7ffb2e701/

Training Large Language Models to Reason in a Continuous Latent Space

【要点】:本文提出了一种新型推理范式Coconut,通过在连续潜在空间而非自然语言空间中训练大型语言模型(LLM),实现更高效的推理过程。
【方法】:作者将LLM的最后隐藏状态作为推理状态的表示,直接在连续空间中将该状态作为后续输入嵌入,而不是将其解码为单词标记。
【实验】:通过在多个推理任务上使用Coconut方法,实验结果显示该范式能够有效增强LLM的推理能力,并在某些需要大量回溯计划的逻辑推理任务中优于传统的链式思维(CoT)。使用的数据集名称未在摘要中明确提及,但结果证明了潜在空间推理的潜力。
【链接】:https://www.aminer.cn/pub/6757c48cae8580e7ffe1eba7/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值