1.The Lessons of Developing Process Reward Models in Mathematical Reasoning
过程奖励模型(PRMs)作为一种颇具潜力的方法,被应用于大语言模型(LLMs)的数学推理过程监督,旨在识别并减少推理过程中的中间错误。然而,开发有效的 PRMs 面临着重大挑战,尤其是在数据标注和评估方法方面。在本文中,通过大量实验,我们证明了与 “大语言模型充当裁判” 以及人工标注方法相比,常用于 PRMs 的基于蒙特卡洛(MC)估计的数据合成,通常性能和泛化能力较差。MC 估计依赖于完成模型来评估当前步骤的正确性,这会导致步骤验证不准确。此外,我们还发现了传统的 “N 选优”(BoN)评估策略在用于 PRMs 时存在潜在偏差:(1)不可靠的策略模型生成的回答虽然答案正确,但推理过程存在缺陷,这使得 BoN 的评估标准与 PRMs 过程验证的目标不一致。(2)PRMs 对这类回答的容忍度,导致 BoN 分数虚高。(3)现有 PRMs 有很大比例的最低分数集中在最终答案步骤上,这表明 “N 选优” 优化的 PRMs 从基于过程的评估转向了基于结果的评估。
为应对这些挑战,我们提出了一种共识过滤机制,有效地将 MC 估计与 “大语言模型充当裁判” 相结合,并采用一种更全面的评估框架,该框架将回答层面和步骤层面的指标结合起来。基于这些机制,我们在 BoN 评估和逐步错误识别任务中显著提升了模型性能和数据效率。
论文: https://arxiv.org/pdf/2501.07301
2.Tensor Product Attention Is All You Need
将语言模型进行扩展以处理更长的输入序列,通常需要大容量的KV缓存,这会在推理过程中造成巨大的内存开销。在本文中,我们提出了张量积注意力(TPA)这一全新的注意力机制。该机制运用张量分解,以紧凑的方式表示查询、键和值,从而在推理时大幅缩减 KV 缓存的大小。通过将这些表示分解为上下文低秩分量(上下文分解),并与旋转位置嵌入(RoPE)无缝结合,TPA 在提升内存使用效率的同时,还提高了模型质量。 基于 TPA,我们推出了张量积注意力Transformer(T6),这是一种用于序列建模的新型模型架构。通过对语言建模任务进行广泛的实证评估,我们证明,在困惑度以及一系列知名评估基准等各项指标上,T6 的表现均超越了包括多头注意力(MHA)、多头查询注意力(MQA)、组查询注意力(GQA)和多局部注意力(MLA)在内的标准 Transformer 基线模型。值得注意的是,TPA 的内存高效性使得在固定资源限制下能够处理长得多的序列,从而解决了现代语言模型中一个关键的可扩展性难题。相关代码可在https://github.com/tensorgi/T6。
论文: https://arxiv.org/pdf/2501.06425
3.O1 Replication Journey – Part 3: Inference-time Scaling for Medical Reasoning
基于我们此前对 O1 复制的研究(第一部分:历程学习 [秦等人,2024] 和第二部分:知识蒸馏 [黄等人,2024]),这项工作探究了大语言模型(LLMs)在医疗推理任务中,从诊断决策到治疗方案制定等方面,推理时间缩放的潜力。通过在不同复杂程度的医学基准数据集(MedQA、Medbullets 和 JAMA 临床挑战)上进行大量实验,我们的研究揭示了几个关键要点:
-
增加推理时间确实能提升性能。在仅有 500 个样本的小规模训练集上,我们的模型性能大幅提升了 6%-11%。
-
任务复杂度与所需推理链的长度直接相关,这证实了对于具有挑战性的问题,进行更深入的思考过程是必要的。
-
我们的模型生成的鉴别诊断遵循假设演绎法的原则,会列出一系列可能解释患者症状的潜在病症,并通过评估证据来系统地缩小这些可能性范围。
这些发现表明,在提升大语言模型在现实临床推理能力方面,推理时间缩放与历程学习之间存在着具有前景的协同作用 。
论文: https://arxiv.org/pdf/2501.06252
4. WebWalker: Benchmarking LLMs in Web Traversal
检索增强生成(RAG)在开放领域问答任务中展现出卓越的性能。然而,传统搜索引擎检索到的内容可能较为浅显,这限制了大语言模型处理复杂、多层次信息的能力。为解决这一问题,我们推出了 WebWalkerQA,这是一个用于评估大语言模型网页遍历能力的基准测试。它评估大语言模型遍历网站子页面以系统提取高质量数据的能力。
我们还提出了 WebWalker,这是一个多智能体框架,通过 “探索 - 评判” 范式模拟人类的网页浏览行为。大量实验结果表明,WebWalkerQA 具有挑战性,并且通过在现实场景中的横向和纵向整合,证明了 RAG 与 WebWalker 相结合的有效性。
论文: https://arxiv.org/pdf/2501.07572
5. 如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方优快云官方认证二维码
,免费领取【保证100%免费
】