又到了一年一度“中国AI春晚”WAIC,各家大厂动作频发的时候。
今年会有哪些看点?你别说,我们还真在扒论文的过程中,发现了一些热乎线索。
比如蚂蚁数科的金融推理大模型,发布会还没开,技术论文已悄咪咪上线。
金融领域的推理大模型,你可以理解为金融领域的DeepSeek,带着SOTA的刷榜成绩来了。
同样是“杭州”背景科技公司,蚂蚁数科。
不仅在各项金融测评集上刷新SOTA,在MATH、GPQA等通用推理基准中,也有比肩DeepSeek R1,GPT-o1等超大尺寸推理模型的水平。
而且论文也把技术细节全部公开讲清楚了。
嘿嘿嘿,留给蚂蚁数科自己发布会上当新闻来讲的东西,不多了。
模型出厂即专家
新模型名为Agentar-Fin-R1,一共有两个不同参数版本:8B和32B。
蚂蚁数科的研究出发点很务实,就是要突破大模型应用在实际金融业务场景中遇到的行业问题。
与通用场景不同,金融应用在数据、幻觉和合规方面,有着更严苛的要求。核心面临的挑战有三点:
-
金融问题的复杂性:涉及法规、风险和实时数据,AI系统必须具备快速学习和适应的能力。通用大模型虽然会推理,但对专业术语、监管细节常常“一脸懵”。
-
可信度和可解释性:金融决策关乎重大利益,出错代价高。每一个推理步骤都必须透明可审计,确保决策过程的可信度和可解释性。
-
金融大模型评测集:业界缺少围绕真实金融业务场景,验证复杂任务推理、智能体应用等关键能力的金融大模型评测集。
针对于此,Agentar-Fin-R1基于Qwen3,从数据采集、训练框架、任务分类等角度出发,实现了针对金融任务的深度优化。
从效果上来看,首先,Agentar-Fin-R1在所有金融评测基准上——包括Fineva、FinEval、FinanceIQ和蚂蚁数科全新提出的Finova——均达到业界最优水平,超越业界开源金融大模型,也包括GPT-o1、DeepSeek-R1等超大尺寸通用推理模型。
还做到了兼顾专业与通用,在实现金融专业化的同时,通用推理能力没有明显损失。
具体实现方法主要包括以下创新:
-
更专业全面的金融数据标签体系,让模型“出厂即专家”;
-
更高效的加权训练算法,大幅降低大模型应用门槛;
-
模型能力结合真实业务场景自主进化。
我们逐一详细拆解。
更专业的金融任务数据标签体系
首先,训练行业大模型需要对行业知识进行系统化的学习,
针对金融任务纷繁复杂的实际情况,蚂蚁数科团队构建了精细化的金融任务分类体系,覆盖银行、证券、保险、基金、信托等全场景。并将复杂的金融领域任务分解为精准定义的类别,比如“意图识别”、“风险评估”、“合规检查”等等。
基于千亿级金融专业数据语料,再经过专门设计的可信数据合成和CoT数据精标,构建了迄今已知最专业最全面的金融领域训练数据集。
这样做的好处是,相当于打造了一个“课程大纲”,来作为整个开发流程的指导框架。
不仅能指导数据处理和训练工作流,还实现了系统化的任务向导优化,确保金融推理场景的全面覆盖。
多维度可信保障
以此为框架,对于垂直领域模型,最为关键的数据如何获取?
蚂蚁数科团队通过三个层次来确保数据的高质量。
首先,是源头可信。背靠蚂蚁在金融领域的长期积累以及真实数据,构建专业全面的金融领域训练数据集,并供下游进行可信的数据合成。
其次,是合成可信。引入可验证的双轨多智能体协作数据合成框架,也就是让多个AI智能体相互讨论相互审核,来保证合成数据质量。
最后,治理可信。通过人工抽样标注,基于自研奖励模型的打分过滤,去重、去污、去毒等全面数据处理,保证数据安全。
来源:👸号计算机科研圈
6408

被折叠的 条评论
为什么被折叠?



