本文是LLM系列文章,针对《No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks》的翻译。
没有语言是孤岛:在金融大语言模型、指令数据和基准中统一中英文
摘要
尽管大型语言模型(LLM)的发展显著推动了财务分析,但其应用在很大程度上仅限于单一语言领域,使中英双语能力的潜力尚未得到开发。为了弥合这一鸿沟,我们引入了ICE-PIXIU,将ICE-INTENT模型和ICE-FLARE基准无缝合并,用于双语财务分析。ICE-PIXIU独特地集成了一系列中文任务,以及翻译和原始英文数据集,丰富了双语金融建模的广度和深度。它提供了对各种模型变体的无限制访问,对各种跨语言和多模态指令数据的大量汇编,以及具有专家注释的评估基准,包括10个NLP任务,20个双语特定任务,总计95k个数据集。我们的全面评估强调了整合这些双语数据集的优势,特别是在翻译任务和利用原始英语数据方面,增强了语言灵活性和金融环境中的分析敏锐度。值得注意的是,ICE-INTENT在双语环境中展示了对传统LLM和现有金融LLM的显著增强,突显了强大的双语数据对金融NLP的准确性和有效性的深远影响。