清华和中科院团队造出“AI奥数团队“:像人类专家一样学习积累经验,解题能力直逼顶级AI

这项由美国加州大学洛杉矶分校的萨尔曼·拉赫曼教授、康奈尔大学的穆德·基肖尔·莫罗尔博士以及卡塔尔计算研究所的穆德·里兹万·帕尔韦兹博士共同领导的研究于2025年6月发表,论文编号为arXiv:2506.14234v1。感兴趣的读者可以通过访问https://kagnlp.github.io/xolver.github.io/获取完整的代码和数据。

当你还在为数学竞赛题目抓耳挠腮时,研究团队却在思考一个更深层的问题:为什么现在的AI虽然很聪明,但每次解题都像是第一次见到这类问题,完全不会从之前的经验中学习?就好比每次做菜都不记得上次的调味心得,每次都要重新摸索一遍。

现实中的奥数高手可不是这样工作的。他们就像经验丰富的侦探,会记住之前破过的案子,积累各种破案技巧,还会和队友互相学习,甚至在比赛现场都能从其他类似的题目中获得灵感。但现在的大语言模型却像患了健忘症的侦探,每次都要从零开始分析案情。

研究团队意识到这个问题后,决定打造一个全新的AI系统——Xolver。这个名字听起来像是"solver"(解决者)的升级版,而它确实是对传统AI解题方式的一次彻底革新。

Xolver的核心思想简单而巧妙:让AI学会像真正的专家团队一样工作。当你看到奥数竞赛中的顶尖选手时,他们绝不是单打独斗的孤胆英雄。相反,他们背后往往有一整套支持系统——经验丰富的教练提供指导,队友们互相讨论启发思路,还有大量历年真题和解题技巧作为参考资料。更重要的是,他们会在解题过程中不断调整策略,从失败中学习,在成功时总结经验。

研究团队决定把这种人类专家的工作模式完全复制到AI系统中。他们设计了一个多智能体框架,就像组建了一支AI版的奥数梦之队。这支队伍里有专门的规划师负责整体战略,有各种专业角色的解题专家(比如代数专家、几何高手、程序设计大师),还有严格的评判员负责检查答案质量,甚至还有专门的验证专家确保最终答案正确无误。

但真正让Xolver与众不同的是它的"记忆系统"。传统的AI就像是没有记忆的金鱼,每次解题都是全新开始。而Xolver却拥有两套完整的记忆体系,就像人类专家的大脑一样。

第一套是"长期记忆",类似于专家多年积累的经验库。这里存储着大量的经典题目、解题方法和成功案例。当遇到新问题时,Xolver会先在这个经验库中搜索相似的例子,就像经验丰富的老师回忆起曾经教过的类似题型。

第二套是"工作记忆",这更像是解题过程中的草稿纸和思维导图。在解决每个具体问题时,不同的AI专家会在这个共享空间里记录自己的思路、尝试的方法以及获得的反馈。随着解题过程的推进,只有质量最高的想法和方案会被保留下来,就像团队讨论中最终采纳的都是最有价值的建议。

更神奇的是,Xolver的学习能力是动态的。在解决一道新题目的过程中,不同专家会轮流发表意见,评判员会对每个方案打分,整个团队会根据反馈不断改进方案。这个过程可能要进行好几轮,直到找到满意的解答或者达到预设的尝试次数。解题结束后,整个过程中的精华部分会被存入长期记忆,成为未来解题的宝贵资源。

为了验证Xolver的实际效果,研究团队进行了大规模的测试,涵盖了数学和编程两大领域的多个知名测试集。这些测试包括小学数学应用题(GSM8K)、高难度数学竞赛题(MATH-500)、美国数学邀请赛真题(AIME 2024和2025),以及动态更新的编程挑战赛(LiveCodeBench)。

测试结果简直让人惊叹。即使使用相对较小的基础模型(比如32B参数的QWQ模型),Xolver的表现也经常超越那些参数量是它7倍多的巨型模型。在美国数学邀请赛的题目上,Xolver取得了平均91.6%的正确率,比基础模型提升了18.5个百分点。在编程挑战方面,提升幅度更是达到了惊人的21个百分点。

当研究团队使用更强大的基础模型时,Xolver的表现更是达到了新的高度。在各项测试中,它分别取得了98.1%(GSM8K)、94.4%(AIME'24)、93.7%(AIME'25)、99.8%(Math-500)和91.6%(LiveCodeBench)的成绩,这些数字甚至超越了当前最先进的专有AI模型。

一、AI团队的精妙组织:每个成员都有专门角色

Xolver的工作方式就像一个训练有素的专业团队。当面对一道新题目时,首先登场的是"规划师智能体"。这位规划师就像团队的教练,会仔细分析题目的特点,然后从一个庞大的专家库中挑选最适合的团队成员

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值