WAIC抢先爆料:金融“黑马”大模型超DeepSeek刷新SOTA,论文已上线

又到了一年一度“中国AI春晚”WAIC,各家大厂动作频发的时候。

今年会有哪些看点?你别说,我们还真在扒论文的过程中,发现了一些热乎线索。

比如蚂蚁数科的金融推理大模型,发布会还没开,技术论文已悄咪咪上线。

金融领域的推理大模型,你可以理解为金融领域的DeepSeek,带着SOTA的刷榜成绩来了。

同样是“杭州”背景科技公司,蚂蚁数科。

不仅在各项金融测评集上刷新SOTA,在MATH、GPQA等通用推理基准中,也有比肩DeepSeek R1,GPT-o1等超大尺寸推理模型的水平。

而且论文也把技术细节全部公开讲清楚了。

嘿嘿嘿,留给蚂蚁数科自己发布会上当新闻来讲的东西,不多了。

模型出厂即专家

新模型名为Agentar-Fin-R1,一共有两个不同参数版本:8B和32B。

蚂蚁数科的研究出发点很务实,就是要突破大模型应用在实际金融业务场景中遇到的行业问题

与通用场景不同,金融应用在数据、幻觉和合规方面,有着更严苛的要求。核心面临的挑战有三点:

  • 金融问题的复杂性:涉及法规、风险和实时数据,AI系统必须具备快速学习和适应的能力。通用大模型虽然会推理,但对专业术语、监管细节常常“一脸懵”。

  • 可信度和可解释性:金融决策关乎重大利益,出错代价高。每一个推理步骤都必须透明可审计,确保决策过程的可信度和可解释性。

  • 金融大模型评测集:业界缺少围绕真实金融业务场景,验证复杂任务推理、智能体应用等关键能力的金融大模型评测集。

针对于此,Agentar-Fin-R1基于Qwen3,从数据采集、训练框架、任务分类等角度出发,实现了针对金融任务的深度优化。

从效果上来看,首先,Agentar-Fin-R1在所有金融评测基准上——包括Fineva、FinEval、FinanceIQ和蚂蚁数科全新提出的Finova——均达到业界最优水平,超越业界开源金融大模型,也包括GPT-o1、DeepSeek-R1等超大尺寸通用推理模型

还做到了兼顾专业与通用,在实现金融专业化的同时,通用推理能力没有明显损失。

具体实现方法主要包括以下创新:

  • 更专业全面的金融数据标签体系,让模型“出厂即专家”;

  • 更高效的加权训练算法,大幅降低大模型应用门槛;

  • 模型能力结合真实业务场景自主进化。

我们逐一详细拆解。

更专业的金融任务数据标签体系

首先,训练行业大模型需要对行业知识进行系统化的学习,

针对金融任务纷繁复杂的实际情况,蚂蚁数科团队构建了精细化的金融任务分类体系,覆盖银行、证券、保险、基金、信托等全场景。并将复杂的金融领域任务分解为精准定义的类别,比如“意图识别”、“风险评估”、“合规检查”等等。

基于千亿级金融专业数据语料,再经过专门设计的可信数据合成和CoT数据精标,构建了迄今已知最专业最全面的金融领域训练数据集。

这样做的好处是,相当于打造了一个“课程大纲”,来作为整个开发流程的指导框架。

不仅能指导数据处理和训练工作流,还实现了系统化的任务向导优化,确保金融推理场景的全面覆盖。

多维度可信保障

以此为框架,对于垂直领域模型,最为关键的数据如何获取?

蚂蚁数科团队通过三个层次来确保数据的高质量。

首先,是源头可信。背靠蚂蚁在金融领域的长期积累以及真实数据,构建专业全面的金融领域训练数据集,并供下游进行可信的数据合成。

其次,是合成可信。引入可验证的双轨多智能体协作数据合成框架,也就是让多个AI智能体相互讨论相互审核,来保证合成数据质量。

最后,治理可信。通过人工抽样标注,基于自研奖励模型的打分过滤,去重、去污、去毒等全面数据处理,保证数据安全。

来源:👸号计算机科研圈

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值