WAIC抢先爆料：金融“黑马”大模型超DeepSeek刷新SOTA，论文已上线

最新推荐文章于 2025-12-11 18:35:35 发布

原创最新推荐文章于 2025-12-11 18:35:35 发布 · 407 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#金融 #人工智能

又到了一年一度“中国AI春晚”WAIC，各家大厂动作频发的时候。

今年会有哪些看点？你别说，我们还真在扒论文的过程中，发现了一些热乎线索。

比如蚂蚁数科的金融推理大模型，发布会还没开，技术论文已悄咪咪上线。

金融领域的推理大模型，你可以理解为金融领域的DeepSeek，带着SOTA的刷榜成绩来了。

同样是“杭州”背景科技公司，蚂蚁数科。

不仅在各项金融测评集上刷新SOTA，在MATH、GPQA等通用推理基准中，也有比肩DeepSeek R1，GPT-o1等超大尺寸推理模型的水平。

而且论文也把技术细节全部公开讲清楚了。

嘿嘿嘿，留给蚂蚁数科自己发布会上当新闻来讲的东西，不多了。

模型出厂即专家

新模型名为Agentar-Fin-R1，一共有两个不同参数版本：8B和32B。

蚂蚁数科的研究出发点很务实，就是要突破大模型应用在实际金融业务场景中遇到的行业问题。

与通用场景不同，金融应用在数据、幻觉和合规方面，有着更严苛的要求。核心面临的挑战有三点：

金融问题的复杂性：涉及法规、风险和实时数据，AI系统必须具备快速学习和适应的能力。通用大模型虽然会推理，但对专业术语、监管细节常常“一脸懵”。
可信度和可解释性：金融决策关乎重大利益，出错代价高。每一个推理步骤都必须透明可审计，确保决策过程的可信度和可解释性。
金融大模型评测集：业界缺少围绕真实金融业务场景，验证复杂任务推理、智能体应用等关键能力的金融大模型评测集。

针对于此，Agentar-Fin-R1基于Qwen3，从数据采集、训练框架、任务分类等角度出发，实现了针对金融任务的深度优化。

从效果上来看，首先，Agentar-Fin-R1在所有金融评测基准上——包括Fineva、FinEval、FinanceIQ和蚂蚁数科全新提出的Finova——均达到业界最优水平，超越业界开源金融大模型，也包括GPT-o1、DeepSeek-R1等超大尺寸通用推理模型。

还做到了兼顾专业与通用，在实现金融专业化的同时，通用推理能力没有明显损失。

具体实现方法主要包括以下创新：

更专业全面的金融数据标签体系，让模型“出厂即专家”；
更高效的加权训练算法，大幅降低大模型应用门槛；
模型能力结合真实业务场景自主进化。

我们逐一详细拆解。

更专业的金融任务数据标签体系

首先，训练行业大模型需要对行业知识进行系统化的学习，

针对金融任务纷繁复杂的实际情况，蚂蚁数科团队构建了精细化的金融任务分类体系，覆盖银行、证券、保险、基金、信托等全场景。并将复杂的金融领域任务分解为精准定义的类别，比如“意图识别”、“风险评估”、“合规检查”等等。

基于千亿级金融专业数据语料，再经过专门设计的可信数据合成和CoT数据精标，构建了迄今已知最专业最全面的金融领域训练数据集。

这样做的好处是，相当于打造了一个“课程大纲”，来作为整个开发流程的指导框架。

不仅能指导数据处理和训练工作流，还实现了系统化的任务向导优化，确保金融推理场景的全面覆盖。

多维度可信保障

以此为框架，对于垂直领域模型，最为关键的数据如何获取？

蚂蚁数科团队通过三个层次来确保数据的高质量。

首先，是源头可信。背靠蚂蚁在金融领域的长期积累以及真实数据，构建专业全面的金融领域训练数据集，并供下游进行可信的数据合成。

其次，是合成可信。引入可验证的双轨多智能体协作数据合成框架，也就是让多个AI智能体相互讨论相互审核，来保证合成数据质量。

最后，治理可信。通过人工抽样标注，基于自研奖励模型的打分过滤，去重、去污、去毒等全面数据处理，保证数据安全。

来源：👸号计算机科研圈

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。