The FinBen: An Holistic Financial Benchmark for Large Language Models

828 篇文章

已下架不支持订阅

本文介绍FinBen,首个全面的开源金融领域评估基准,用于深入评估大型语言模型(LLM)在金融任务中的能力。FinBen涵盖23个任务的35个数据集,评估LLM的归纳推理、联想记忆等能力。研究表明,GPT-4在量化、提取和交易任务中表现出色,而Gemini在生成和预测方面领先,但两者在复杂任务上都有局限性。FinBen旨在通过定期更新推动金融领域的人工智能发展。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《The FinBen: An Holistic Financial Benchmark for Large Language Models》的翻译。

FinBen:大型语言模型的整体财务基准

摘要

LLM已经改变了NLP,并在各个领域表现出了希望,但由于缺乏彻底的评估和财务任务的复杂性,它们在财务方面的潜力没有得到充分挖掘。这与LLM的快速发展一起,凸显了对LLM系统财务评估基准的迫切需求。在本文中,我们介绍了FinBen,这是第一个全面的开源评估基准,专门用于彻底评估LLM在金融领域的能力。FinBen包含23项金融任务的35个数据集,受CattellHorn-Carroll理论的启发,分为三个难度谱,以评估LLM在归纳推理、联想记忆、定量推理、结晶智能等方面的认知能力。我们对15个代表性LLM的评估,包括GPT-4、ChatGPT和最新的Gemini,揭示了它们在金融领域的优势和局限性。研究结果表明,GPT-4在量化、提取、数字推理和股票交易方面领先,而Gemini在生成和预测方面大放异彩;然而,两者都难以进行复杂的提取和预测,显然需要有针对性的增强。指令调整提高了简单任务的性能,但在提高复杂推理和预测能力方面做不到。FinBen寻求持续评估金融领域的LLM,通过定期更新任务和模型来促进人工智能开发。

1 引言

2 FinBen

3 评估

4 结果

5 结论

在这项工作中,我们引入了一个全

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值