AI大模型新动向:智能体蒸馏框架、图检索增强生成、多智能体推理

1、Optimizing Length Compression in Large Reasoning Models

大型推理模型(LRMs)取得了显著的成功,但它们往往会生成不必要的冗长推理链。本文识别出这一问题的核心是“无效思考”——模型在得出正确答案后,往往会重复地检查自己的工作。为了解决这一特定的低效问题,本文超越了效能和效率的一般原则,提出了两个新的细化原则:简洁性(Brevity),主张消除冗余;充分性(Sufficiency),确保保留关键的推理步骤。在这些原则的指导下,本文引入了LC-R1,这是一种基于组相对策略优化(GRPO)的后训练方法。LC-R1采用了一种新颖的组合奖励机制,包括用于整体简洁性的长度奖励(Length Reward)和专门用于去除思考过程无效部分的压缩奖励(Compress Reward)。在多个推理基准测试上的广泛实验表明,LC-R1实现了序列长度的显著减少(约50%),而准确率仅略有下降(约2%),在优先考虑高压缩率的帕累托前沿上达到了一个有利的权衡点。本文的进一步分析验证了LC-R1的鲁棒性,并为开发更强大且计算效率更高的LRMs提供了宝贵的见解。

图片

图片

图片

图片

图片

文章链接:

https://arxiv.org/pdf/2506.14755

2、AgentDistill: Training-Free Agent Distillation with Generalizable MCP Boxes

尽管知识蒸馏已成为将大型语言模型(LLMs)压缩到小型模型中的成熟领域,但涉及规划、记忆和工具使用的LLM基础智能体的蒸馏仍相对较少被探索。现有的智能体蒸馏方法通常通过重放完整的教师轨迹或模仿教师的逐步工具使用来实现,但它们往往难以训练学生智能体在新环境中动态规划和行动。本文提出了AgentDistill,这是一个新颖的、无需训练的智能体蒸馏框架,通过直接重用教师智能体自动生成的结构化且可复用的任务解决模块——模型-上下文-协议(MCPs),实现高效且可扩展的知识转移。这些MCPs的重用使学生智能体能够在不同领域泛化其能力,并在最少的监督或人为干预下解决新问题。在生物医学和数学基准测试上的实验表明,本文蒸馏后的学生智能体,即使使用小型语言模型,也能实现与使用强大LLM(如OctoTools [GPT-4o])的先进系统相当的性能,突出了本文框架在构建可扩展且成本效益高的智能体方面的有效性。

图片

图片

图片

图片

文章链接:

https://arxiv.org/pdf/2506.14728

3、Re-Initialization Token Learning for Tool-Augmented Large Language Models

大语言模型(LLMs)展现了卓越的性能,但在处理复杂任务(如数值推理、计划生成)时仍面临挑战。将外部工具(如计算器和数据库)集成到大语言模型中对于增强其问题解决能力至关重要。当前的方法为每个工具分配一个独特的令牌,使LLMs能够通过令牌预测调用工具,类似于单词生成。然而,这种方法未能考虑工具令牌与单词令牌之间的关系,限制了其在预训练LLMs中的适应性。为解决这一问题,本文提出了一种新颖的令牌学习方法,从初始化的角度出发,将工具令牌与现有的单词嵌入空间对齐,从而提升模型性能。本文首先基于工具的名称或描述构建每个工具的先验令牌嵌入,用于初始化和正则化可学习的工具令牌嵌入。这确保了所学习的嵌入与单词令牌空间良好对齐,提高了工具调用的准确性。本文在GSM8K-XL、FuncQA、KAMEL和VirtualHome数据集上对数值推理、知识问答和具身计划生成等任务进行了评估。结果表明,与最近的基线(包括CoT、REACT、ICL和ToolkenGPT)相比,本文的方法在不同领域通过相关令牌有效地增强了LLMs与工具的结合,显示出显著的改进。

图片

图片

图片

图片

文章链接:

https://arxiv.org/pdf/2506.14248

4、SimpleDoc: Multi-Modal Document Understanding with Dual-Cue Page Retrieval and Iterative Refinement

文档视觉问答(DocVQA)是一项实用但具有挑战性的任务,需要基于文档提出问题,同时参考多页和不同模态的信息,例如图像和表格。为了处理多模态问题,近期的方法遵循类似的检索增强生成(RAG)流程,但利用基于视觉语言模型(VLMs)的嵌入模型将相关页面作为图像进行嵌入和检索,并使用可以接受图像输入的VLMs生成答案。本文介绍了SimpleDoc,这是一个轻量级但强大的检索增强框架,用于DocVQA任务。它通过首先基于嵌入相似性检索候选页面,然后根据页面摘要过滤和重新排序这些候选页面,从而增强证据页面的收集。单个基于VLM的推理代理反复调用这种双线索检索器,迭代地将新页面拉入工作记忆,直到问题得到自信的回答。SimpleDoc在4个DocVQA数据集上平均比之前的基线提高了3.2%的准确率,同时检索的页面数量更少。

图片

图片

图片

图片

文章链接:

https://arxiv.org/pdf/2506.14035

5、XGraphRAG: Interactive Visual Analysis for Graph-based Retrieval-Augmented Generation

基于图的检索增强生成(Graph-based Retrieval-Augmented Generation,简称GraphRAG)在利用外部知识库增强大型语言模型(LLM)回答方面展现出巨大潜力。与传统RAG相比,它引入图作为中间表示,更好地捕捉语料库中的结构化关系知识,从而提升生成结果的准确性和全面性。然而,由于GraphRAG复杂的信息处理流程和在图构建与查询过程中涉及的大量LLM调用,开发者在分析其在数据集上的有效性时面临挑战,这限制了GraphRAG的可解释性和易用性。本文提出一个可视化分析框架,帮助RAG开发者识别GraphRAG中的关键召回(recall)并追踪这些召回通过GraphRAG流程的路径。基于该框架,本文开发了XGraphRAG原型系统,通过一系列交互式可视化视图促进用户分析过程,提升故障案例收集和改进机会识别的效率。评估结果证明了本文方法的有效性和可用性。

图片

图片

图片

图片

文章链接:

https://arxiv.org/pdf/2506.13782

6、Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team

尽管在复杂推理方面取得了令人印象深刻的进展,但当前的大型语言模型(LLMs)通常独立运行——将每个问题视为一次独立尝试,而不会积累或整合经验知识。相比之下,专家问题解决者(如奥林匹克或编程竞赛团队)会利用丰富的经验:从教练那里吸收指导,从过去的题目中发展直觉,利用工具使用和库功能的知识,根据同伴的专长和经验调整策略,通过试错不断优化推理过程,并在竞赛中从相关问题中学习。受此启发,本文介绍了Xolver——一个无需训练的多智能体推理框架,为黑盒LLM配备了持久且不断进化的整体经验记忆。Xolver整合了多样化的经验模式,包括外部和自检索、工具使用、智能体间的协作互动、智能体驱动的评估以及迭代推理优化。通过在推理时学习相关策略、代码片段和抽象推理模式,Xolver避免了从头生成解决方案——标志着从孤立推理向经验感知型语言代理的转变。基于开源权重和专有模型构建的Xolver,在多个基准测试中一致超越了专门的推理代理(例如OctoTools、CheatSheet、Search-o1)。即使在轻量级模型(例如QWQ-32B)上实现时,它也常常超越最先进的模型,包括Qwen3-235B、Gemini 2.5 Pro、o3和o4-mini-high。使用更强的o3-mini-high作为骨干时,它实现了新的最佳结果——在GSM8K上达到98.1%,在AIME’24上达到94.4%,在AIME’25上达到93.7%,在Math-500上达到99.8%,在LiveCodeBench上达到91.6%——突出显示整体经验学习是实现动态、通用代理能够进行专家级推理的关键步骤。

图片

图片

图片

图片

文章链接:

https://arxiv.org/pdf/2506.14234

7、Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs

强化学习与可验证奖励(RLVR)作为一种提升大语言模型(LLMs)推理能力的范式,已经引起了广泛关注。然而,其有效性存在一个关键悖论:经过RLVR调整的模型在解决方案寻找的Pass@K指标上通常不如基础模型表现好,这引发了关于RLVR是否真正激励了新推理路径的质疑。本文通过识别问题根源,即Pass@K指标本身存在缺陷,因为它会奖励那些可能源自不准确或不完整推理链(CoTs)的正确答案,从而解决了这一矛盾。为此,本文引入了一个更精确的评估指标CoT-Pass@K,要求推理路径和最终答案都必须正确。本文还为RLVR提供了新的理论基础,正式阐述了与传统强化学习不同,RLVR如何激励逻辑完整性。实验结果表明,使用CoT-Pass@K指标时,RLVR能够激励所有K值的正确推理的泛化。此外,通过分析训练动态,发现这种增强的推理能力在训练早期就出现,并且能够顺利泛化。本文为RLVR的作用提供了清晰的视角,提供了更可靠的评估方法,并确认了其在真正推进机器推理方面的潜力。

图片

图片

图片

最后

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值