2023-arXiv-FinGPT: 开源金融大语言模型

arXiv | https://arxiv.org/abs/2306.06031

GitHub | https://github.com/AI4Finance-Foundation/FinGPT & https://github.com/AI4Finance-Foundation/FinNLP

摘要:

大语言模型(LLMs)在多个领域展示出革新自然语言处理任务的潜力,这在金融领域引发了极大的兴趣。获取高质量的金融数据是金融大型语言模型面临的第一个挑战。在本文中,我们提出了一种专为金融领域设计的开源大语言模型 FinGPT。与 BloombergGPT 等专有模型不同,FinGPT 采取以数据为中心的方法,为研究人员和从业者提供易于访问和透明的数据资源,以开发自己的 FinLLMs。我们强调了自动数据整理管道轻量级低秩适应技术在构建 FinGPT 中的重要性。此外,我们展示了多种潜在应用作为用户入门的基石,例如机器人理财顾问、算法交易和低代码开发。

一、引言

人工智能的持续扩展和演变为大语言模型的增长提供了肥沃的土壤,从而在不同领域自然语言处理的景观中引发了变革性的转变。这一广泛的变化激发了人们对这些模型在金融领域的潜在应用的兴趣。获取高质量、相关且及时的数据是开发高效且有效的开源金融语言模型的关键因素。在金融领域利用语言模型揭示了诸多复杂挑战。这些挑战包括数据获取的难度处理多种数据格式和类型管理数据质量的不一致性,以及对及时信息的必要性。尤其是,由于数据介质的多样性,如网络平台、API、PDF文档和图像,历史或专门化的金融数据提取变得尤为复杂。

在专有领域,BloombergGPT 等模型充分利用了其对专门数据的独家访问权来训练金融特定的语言模型。然而,这些数据集合和训练协议的限制性访问和透明度不足加剧了对更开放和包容替代方案的需求。本文提出了 FinGPT,一个用于金融大型语言模型的端到端开源框架。FinGPT 采用数据为中心的方法,强调了在开发开源 FinLLMs 过程中数据获取、清洗和预处理的关键作用。

二、数据导向的方法在金融大语言模型中的应用

对于金融大型语言模型(FinLLMs),成功的策略不仅依赖于模型架构的能力,同样也依赖于训练数据。我们以数据为中心的方法注重收集、准备和处理高质量的数据。

2.1 金融数据的独特特征

金融数据来源于多种渠道,每种渠道具有独特的特征。我们探讨不同金融数据来源的具体情况,例如金融新闻、公司公开文件、社交媒体讨论和公司公告。

金融新闻提供了关于世界经济、特定行业和个别公司的关键信息。

  • **及时性:**金融新闻报道及时且最新,通常能捕捉到金融世界中的最新发展。
  • **动态性:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值