本文是LLM系列文章,针对《The FinBen: An Holistic Financial Benchmark for Large Language Models》的翻译。
摘要
LLM已经改变了NLP,并在各个领域表现出了希望,但由于缺乏彻底的评估和财务任务的复杂性,它们在财务方面的潜力没有得到充分挖掘。这与LLM的快速发展一起,凸显了对LLM系统财务评估基准的迫切需求。在本文中,我们介绍了FinBen,这是第一个全面的开源评估基准,专门用于彻底评估LLM在金融领域的能力。FinBen包含23项金融任务的35个数据集,受CattellHorn-Carroll理论的启发,分为三个难度谱,以评估LLM在归纳推理、联想记忆、定量推理、结晶智能等方面的认知能力。我们对15个代表性LLM的评估,包括GPT-4、ChatGPT和最新的Gemini,揭示了它们在金融领域的优势和局限性。研究结果表明,GPT-4在量化、提取、数字推理和股票交易方面领先,而Gemini在生成和预测方面大放异彩;然而,两者都难以进行复杂的提取和预测,显然需要有针对性的增强。指令调整提高了简单任务的性能,但在提高复杂推理和预测能力方面做不到。FinBen寻求持续评估金融领域的LLM,通过定期更新任务和模型来促进人工智能开发。
1 引言
2 FinBen
3 评估
4 结果
5 结论
在这项工作中,我们引入了一个全