解读 Fin-R1 | 从数据集构建和训练方法聊聊如何用70亿参数革新复杂金融推理
作者:羰汤羰,部分内容引用自公众号「经时指数」
近年来,大型语言模型(LLMs)在各领域的快速发展令人瞩目,而金融领域因其独特的复杂性和专业性,一直是AI技术应用的难点之一。
前段时间,上海财经大学联合复旦大学及 FinStep 团队推出了一款名为 Fin-R1 的金融推理大语言模型,以仅 70 亿参数的轻量化设计,成功挑战了金融行业三大痛点:数据碎片化、推理逻辑不可控及业务泛化能力不足。
这款模型不仅在权威金融基准测试中表现亮眼,还为金融合规和机器人顾问等实际场景提供了高效解决方案。究竟是什么让 Fin-R1 如此引人注目?让我们一探究竟。
创新点:小模型,大智慧
Fin-R1 的研发团队通过一系列创新设计,让这款“轻量级选手”在金融推理领域脱颖而出。以下是其三大核心贡献:
1. 高质量金融推理数据集 Fin-R1-Data
为了让模型真正“懂金融”,团队精心构建了 Fin-R1-Data,一个包含约6万条完整推理链(CoT)的高质量数据集。通过从多个权威金融数据集(如FinQA、ConvFinQA等)和金融考研计算题中提炼和筛选,Fin-R1-Data 覆盖了中英文金融垂直领域的多维度知识,支持核心金融业务场景的数据需求。
2. 两阶段训练框架:SFT+RL双管齐下
Fin-R1采用了监督微调(SFT)和强化学习(RL)的两阶段训练流程。首先通过 SFT 让模型掌握金融推理的基本能力,随后利用强化学习中的Group Relative Policy Optimization(GRPO)算法,进一步提升推理准确性和输出规范性。这种方法不仅增强了模型的决策能力,还使其推理过程更透明可控。
3. 轻量化设计与高效性能
与动辄数百亿参数的庞大模型不同,Fin-R1 仅用 70 亿参数就实现了卓越性能。这种设计大幅降低了部署成本,同时在金融推理任务中表现出色,堪称“性价比之王”。
图1:Fin-R1构建流程图。展示了数据生成(通过DeepSeek-R1生成CoT数据并用Qwen2.5-72B-Instruct过滤)和模型训练(SFT预训练+GRPO优化)的两阶段框架,右侧突出其在金融代码、专业知识和业务知识上的表现。
数据来源:精雕细琢的Fin-R1-Data
Fin-R1的成功离不开其背后精心设计的数据集Fin-R1-Data,总计包含60,091条数据,涵盖中英文双语内容。数据集分为两大来源:
-
开源数据集
包括Ant_Finance、FinanceIQ、Quant-Trading-Instruct、ConvFinQA、FinQA、Twitter-Financial-News-Sentiment(TFNS)、Finance-Instruct-500K、FinCorpus和FinCUGE等权威金融数据集,覆盖了金融业务知识、数值推理和专业术语等多方面内容。
图2:FinQA测试集例题与解题方法,来自FinQA项目论文。
-
专有数据集 FinPEE
团队特别收集了 350 道金融考研计算题,组成 Financial Postgraduate Entrance Exam(FinPEE)数据集。从 PDF 格式批量转换为 Markdown,再通过正则化提取结构化问答对,并经人工审核,确保数据质量。
构造方法可谓匠心独运:
-
数据提炼:基于 DeepSeek-R1 进行推理生成完整 CoT 数据,采用温度 0.6 等参数配置,确保生成内容的多样性和准确性。
-
数据筛选:通过“LLM-as-Judge”方法,使用 Qwen2.5-72B-Instruct 评估答案准确性和推理轨迹质量。筛选标准包括逻辑一致性、术语重叠率和步骤数量等七个维度,仅保留高质量数据。
图3:Fin-R1-Data组成结构图。展示了数据集在金融代码、专业知识、推理知识和非推理知识四个方面的分布,为模型提供全面支持。
模型训练方法:从基础到精益求精
Fin-R1 基于 Qwen2.5-7B-Instruct 打造,通过两阶段训练实现能力跃升:
-
监督微调(SFT)
使用包含问题、推理轨迹(<think>...</think>)和答案(<answer>...</answer>)的结构化数据进行预训练。训练数据主要来自 ConvFinQA 和 FinQA,旨在让模型掌握金融推理的基本模式,提升其在专业任务中的表现。 -
强化学习(RL)
采用 GRPO 算法,通过采样多组候选输出并计算组内相对优势(基于奖励均值和标准差),优化模型参数。奖励机制分为:-
格式奖励:鼓励输出包含规范的推理和答案标签,符合要求得1分,否则0分。
-
准确性奖励:由 Qwen2.5-Max 判断答案与标准答案的语义一致性,一致得1分,否则0分。
-
这种双重优化不仅提升了推理能力,还确保了输出的可读性和合规性。
图4:Fin-R1训练流程图。展示了SFT阶段使用结构化推理数据增强模型能力,以及RL阶段通过GRPO算法优化格式和内容准确性。
实验结果:权威基准中的“黑马”
Fin-R1 在多个金融基准测试中的表现令人惊叹。尽管参数规模较小,它却以平均分 75.2 的成绩位列第二,仅次于 6710 亿参数的 DeepSeek-R1(78.2),并大幅领先同等规模的其他模型。以下是具体亮点:
-
金融推理任务的王者
在 ConvFinQA 和 FinQA 测试中,Fin-R1 分别取得了 85.0 和 76.0 的最高分,超越所有竞争对手,包括 700 亿参数的 DeepSeek-R1-Distill-Llama-70B(74.0和68.0)。 -
跨任务泛化能力突出
在 Ant_Finance、TFNS 和 Finance-Instruct-500K 等测试中,Fin-R1 相比基线模型 Qwen2.5-7B-Instruct 有显著提升,显示出其出色的业务泛化能力。
图4:不同模型在多种金融评测集上的评测结果。
Fin-R1 在相关测试集上的高评分主要体现了其重要特点——较为擅长处理源于表格的金融结构化数据。
这可能得益于其训练数据中包含针对金融表格进行数值推理的数据,以及其基于思维链的推理方式有助于将复杂的表格信息分解为逐步计算。在 Excel 已成为最常用工具的金融行业,这样的差异化优势可以使得 Fin-R1 展现出更大的应用可能性。
但现实金融应用场景中的表格(如上市公司财报等)常存在跨页、合并单元格、嵌套等复杂格式。根据其论文阐述,Fin-R1 模型目前为单模态架构、无法解析图像格式的图表信息,这一定程度上限制了实际应用场景。同时,在消息情绪理解(TFNS)、通用类金融知识的基准下,Fin-R1与前沿推理模型仍有差距,这为未来垂类小模型的开发留下了想象空间。
结语
Fin-R1 是金融垂直领域小参数推理模型的重要成果,展示了通过精心构建数据集和优化训练方法,小模型在特定场景下可以接近大模型的表现。也揭示了一个关键命题:金融AI的真正价值不在于参数量的堆砌,而在于对业务痛点的精准拆解。从Deepseek R1,到Fin-R1进一步的报表解读和财务计算等专业能力,我们可以期待未来AI为金融行业带来一场真正的变革:AI在解读和计算的基础上,更懂得深度思考和追问问题。
想了解更多细节?代码已开源,欢迎访问:
https://huggingface.co/SUFE-AIFLM-Lab/Fin-R1
Fin-R1 模型试用链接:
https://ai.gitee.com/serverless-api?model=Fin-R1
项目论文:
https://arxiv.org/pdf/2503.16252
-- 完 --
机智流推荐阅读:
1. QCon 全球软件开发大会 | 与全球 140+ 顶尖工程师共同解构 AI 时代的技术浪潮