The FinBen: An Holistic Financial Benchmark for Large Language Models-优快云博客

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/137771086

本文介绍FinBen，首个全面的开源金融领域评估基准，用于深入评估大型语言模型（LLM）在金融任务中的能力。FinBen涵盖23个任务的35个数据集，评估LLM的归纳推理、联想记忆等能力。研究表明，GPT-4在量化、提取和交易任务中表现出色，而Gemini在生成和预测方面领先，但两者在复杂任务上都有局限性。FinBen旨在通过定期更新推动金融领域的人工智能发展。

本文是LLM系列文章，针对《The FinBen: An Holistic Financial Benchmark for Large Language Models》的翻译。

摘要

LLM已经改变了NLP，并在各个领域表现出了希望，但由于缺乏彻底的评估和财务任务的复杂性，它们在财务方面的潜力没有得到充分挖掘。这与LLM的快速发展一起，凸显了对LLM系统财务评估基准的迫切需求。在本文中，我们介绍了FinBen，这是第一个全面的开源评估基准，专门用于彻底评估LLM在金融领域的能力。FinBen包含23项金融任务的35个数据集，受CattellHorn-Carroll理论的启发，分为三个难度谱，以评估LLM在归纳推理、联想记忆、定量推理、结晶智能等方面的认知能力。我们对15个代表性LLM的评估，包括GPT-4、ChatGPT和最新的Gemini，揭示了它们在金融领域的优势和局限性。研究结果表明，GPT-4在量化、提取、数字推理和股票交易方面领先，而Gemini在生成和预测方面大放异彩；然而，两者都难以进行复杂的提取和预测，显然需要有针对性的增强。指令调整提高了简单任务的性能，但在提高复杂推理和预测能力方面做不到。FinBen寻求持续评估金融领域的LLM，通过定期更新任务和模型来促进人工智能开发。