
文章主要内容总结
本文介绍了首个面向金融领域大型语言模型(LLMs)的多语言、多模态、难度感知基准——MULTIFINBEN,旨在解决现有金融基准单语、单模态、任务简单化等局限性。该基准覆盖文本、视觉(图表、OCR文档)、音频(财报电话会议)三种模态,支持英语、中文、日语、西班牙语、希腊语五种语言,包含单语、双语、多语三种语言场景,涉及信息抽取、文本分析、问答、文本生成等7类金融任务,并按难度分为简单、中等、困难三级。
研究团队引入了多个创新数据集:如PolyFiQA-Easy/Expert(首个多语言金融问答数据集,需对混合语言输入进行复杂推理)、EnglishOCR/SpanishOCR(首个嵌入OCR的金融问答任务,要求从视觉文本中提取信息)。通过动态难度感知机制,MULTIFINBEN筛选出具有代表性的34个数据集,避免简单任务冗余。
对22个最先进模型的评估显示:即使是GPT-4o等强模型,在跨语言和多模态金融任务中表现仍显著不足(整体得分仅50.67%);多语言任务得分(7.50%)远低于单语任务(17.79%);模型在困难任务(6.63%)上的表现远差于简单任务(31.24%)。该基准已公开,旨在推动金融AI的透明化、可复现研究。
创新点总结
- 首个多语言多模态金融基准<

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



