突破 30 分！DeepSeek-R1 联合 X-Master，打破AI 评测纪录

原创于 2025-07-09 18:37:23 发布 · 2.1k 阅读

·

9

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #X-Master #DeepSeek-R1 #HLE #AI测评 #开源 #算家云

话题文章专栏收录该内容

245 篇文章

订阅专栏

“人类最后的考试”，被一支国内团队打破了纪录。

最近，国内团队在一场“人类最后的考试”中取得了历史性突破。

由上海交通大学和深势科技联合研发的X-Master系统，在这场覆盖数学、物理、生物医药等100多个学科的高难度测试中，首次突破30分大关，以32.1分的成绩刷新了全球纪录。

可能很多人还不了解这个测试的分量。人类最后的考试（HLE），是今年初由AI安全中心和Scale AI联手推出的超难测试集。之所以被叫做“人类最后的考试”，也在于这个大模型测试的难度是公认的天花板级别。

它由500多家机构的1000多名学者共同出题，包含3000多道研究生以上难度的题目。这次突破的核心是DeepSeek-R1模型与X-Master智能体的结合。

DeepSeek-R1在数学和编程领域本就表现突出。而X-Master则模拟人类研究者的动态问题解决过程，能在内部推理和外部工具调用之间高效切换。

比如遇到生物学问题时，它会自动生成代码调用专业数据库，通过实验数据验证推理结果。这种工具增强的推理模式，让模型在处理复杂问题时更接近人类专家的思维方式。

在TRQA-lit生物学专项测试中，它的准确率达到67.4%，远超同类模型。数学题上，它能通过分步推导解决高难度证明题；物理题中，它甚至能结合图像信息分析量子力学现象。

更重要的是，这套系统通过多智能体工作流X-Masters，将多个求解器的方案进行整合优化，最终输出最优解。通过分散-堆叠式的设计，它在面对开放性问题时也能保持较高的准确率。

HLE最初发布时，所有AI模型的成绩都不到10%，哪怕到现在，也鲜有模型的测试成绩超过20分。此前OpenAI的o1模型在HLE中仅得9.1分，谷歌Gemini 2.5 Pro也只有18.8分，而X-Master的32.1分几乎是它们的两倍。

更值得关注的是，上海交大团队采用的是完全开源的技术方案，所有模型和数据集都可在GitHub上获取。

这些成果背后，是国内团队在基础研究和工程化应用上的双重突破。论文作者栏，四位共同一作Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du都来自上海交大人工智能研究院，由陈思衡副教授指导。深势科技创始人张林峰也亲自署名支持。

在攀登AI高峰的路上，中国研究者正从跟跑者变为领跑者。这场“人类最后的考试”不仅是技术的较量，更是开源生态与闭源垄断的博弈。国内团队正以开放姿态推动技术普惠。

未来，随着HLE测试难度的持续升级，AI模型的挑战才刚刚开始。但可以预见，开源生态将成为推动技术进步的核心力量。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。