本文提出了一种名为 CausalStock 的新型新闻驱动多股股价预测框架。该框架旨在解决现有方法在处理新闻驱动多股股价预测任务时存在的两个关键问题:
1. 关系发现: 现有方法主要关注股票间的相关性建模,但公司间关系往往具有方向性,例如“供应商-客户”关系,因此因果关系更适合刻画股票间的相互影响。
2. 噪声处理: 新闻数据中存在大量噪声,有效信息的提取面临挑战。
针对上述问题,CausalStock 框架包含以下主要创新点:
1. 基于滞后依赖的时间因果发现机制: 该机制能够根据时间滞后关系直观地链接时间因果关系,更适合处理时间序列股票数据。
2. 基于大语言模型的去噪新闻编码器 (DNE): 该编码器利用大语言模型 (LLM) 对新闻文本进行多维度评分,包括相关性、情感极性、重要程度、对股价的影响以及影响持续时间,并生成去噪后的新闻表示。
3. 功能因果模型 (FCM): 该模型基于学习到的因果图和因果权重图,对市场信息(包括新闻和价格)进行聚合,预测未来股价走势。
1. 引言
金融服务业在采用数据科学技术进行投资决策方面一直处于领先地位,其中量化交易引起了学术界和工业界的广泛关注。预测股价走势(股价的涨跌)是量化交易的核心任务之一,现有方法主要分为以下几类:
-
单股股价预测: 仅针对单只股票进行预测。
-
多股股价预测: 同时预测多只股票的走势。
-
新闻驱动股价预测: 利用新闻数据辅助预测股价走势。
近年来,随着自然语言处理 (NLP) 技术的发展,社交媒体和在线新闻文本已成为基本面分析的新兴数据源。传统方法主要使用循环神经网络 (RNN) 或长短期记忆网络 (LSTM) 对文本进行编码,但这些方法存在以下局限性:
-
新闻文本数据通常包含大量噪声,例如来自不同来源且可信度不一的新闻报道、信息过载以及语言复杂性和歧义性等,这些噪声给有效信息的提取带来了挑战。
-
LLM 在文本理解和评估方面具有显著优势,可以更有效地从嘈杂的新闻文本中提取有价值的信息。
基于上述分析,本文提出了一种新的新闻驱动多股股价预测模型 CausalStock,该模型的主要特点包括:
-
利用因果关系建模股票间的关系,而不是传统的相关性。
-
采用 LLM 对新闻数据进行去噪处理,提取更有效的特征表示。
2. 相关工作
2.1 股价预测
传统的股价预测方法主要分为技术分析和基本面分析:
-
技术分析: 主要依赖历史价格模式进行预测。
-
基本面分析: 除了历史价格外,还考虑财务报表、行业趋势和经济状况等因素来评估股票的内在价值。
近年来,RNN 及其变体被广泛应用于股价预测,例如:
-
ALSTM: 结合双重注意力机制和 LSTM。
-
Adv-ALSTM: 通过对抗训练模拟价格变量的随机性和不稳定性。
此外,注意力机制也被用于建模股票间的复杂交互,例如:
-
DTML: 利用 Transformer 和 LSTM 捕捉股票间的非对称和动态相关性。
-
HAN: 设计了两个注意力网络,分别识别序列中的重要时间段和给定时间的重要新闻。
-
StockNet: 提出了一种具有循环、连续潜变量的深度生成模型。
-
MSHAN: 利用多阶段 TCN-LSTM 混合模型。
-
PEN: 提出了一种共享表示学习模块,用于捕捉价格数据和文本数据之间的交互。
然而,现有方法主要关注股票间的相关性建模,而忽略了因果关系的建模。
2.2 因果发现
因果发现的传统方法主要依赖于随机实验,但这种方法成本高昂且难以实现。近年来,因果发现,即从纯观测数据中推断因果关系,引起了机器学习领域的广泛关注。
因果发现方法主要分为以下几类:
-
基于约束的方法: 利用条件独立性等约束条件来推断因果关系。
-
基于评分的方法: 通过优化评分函数来学习因果图。
-
功能因果模型 (FCM): 利用非线性函数(例如神经网络)来优化因果图。
本文采用 FCM 来发现股票间的因果关系。
3. 初步知识与问题定义
3.1 初步知识
CausalStock 框架将模型输入与因果关系整合到 FCM 中进行预测。本节介绍 FCM 和时间因果图的基本概念。
时间因果图: 给定一个具有 D 个变量的多变量时间序列 { Xt }t=1, 时间因果图 G 通常被定义为一组具有最大时间滞后 L 的有向无环图 G = {Gt }t=1L = {G1, G2, …, GL} ∈ RL×D×D,其中 Gt ∈ RD×D 指定了 Xt-1 和 Xt 之间的滞后因果关系。
功能因果模型 (FCM): FCM 是一组生成函数,它根据因果知识(结构化为因果图)将输入特征整合起来,生成最终预测。优化预测精度同时可以改进潜在的因果图。
3.2 问题定义
本文重点解决新闻驱动多股股价预测任务。对于目标交易日 T,模型输入为 D 只股票过去 L 个时间步长的信息 X<T = {Xt }t=T-L:T-1 = [Ct, Pt ] = {[Ct, Pt ]}t=T-L:T-1,其中 Ct 和 Pt 分别表示第 i 只股票在时间步长 t 的新闻语料表示和历史价格特征表示。目标是在第 T 个交易日同时预测所有股票调整后收盘价 yT = {yi }i=1D ∈ RD×1 的走势,其中 yi ∈ {0, 1} 表示第 i 只股票在交易日 T 的价格是下跌还是上涨。
4. CausalStock 框架
4.1 模型概述
CausalStock 框架将条件概率分布分解为以下两部分:
P(yT |X<T) = ∫ p(yT |X<T, G)p(G |X<T)dG.
该模型由两个联合训练部分组成:时间因果图发现 p(G |X<T) 和给定因果关系的预测过程 p(yT |X<T, G)。
CausalStock 框架包含以下三个主要组件:
-
市场信息编码器 (MIE): 对新闻文本和价格特征进行编码。
-
滞后依赖时间因果发现 (Lag-dependent TCD) 模块: 利用变分推断根据给定的股票市场信息挖掘因果关系,即建模 p(G |X<T)。
-
功能因果模型 (FCM): 根据学习到的因果图对未来的价格走势进行预测,即建模 p(yT |X<T, G)。
4.2 市场信息编码器 (MIE)
MIE 将新闻语料和数值股票价格特征作为输入,输出具有时间滞后 L 的 D 只股票的历史市场信息表示 X<T = [Ct, Pt ] = {[Ct, Pt ]}t=T-L:T-1 = {Xt }t=T-L:T-1。
价格编码器: 对于第 i 只股票,将原始调整后的收盘价、最高价、最低价、开盘价、收盘价和交易量表示为 Pt = {Pt,0, Pt,h, Pt,l, Pt,o, Pt,c, Vt }. 将 Pt 输入到嵌入层后,历史价格可以表示为 Pt ∈ Rdpx1,其中 dp 是价格嵌入大小。
基于 LLM 的去噪新闻编码器 (DNE): 新闻编码器旨在嵌入与股票相关的新闻文本。现有方法主要使用 GRU 或 LSTM 等小型序列模型对文本进行编码,但新闻文本数据通常包含大量噪声,例如:
-
新闻来源广泛,可信度和编辑标准不一,导致信息不一致和不准确。
-
每天生成的新闻内容数量庞大,导致信息过载。
-
使用复杂或模糊的语言也会增加噪声。
为了解决这些问题,本文提出了一种基于 LLM 的去噪新闻编码器,该编码器利用 LLM 对新闻文本进行多维度评分,包括:
-
新闻与股票的相关性
-
新闻的情感极性
-
新闻事件的重要程度
-
新闻对股票价格的影响
-
新闻影响的持续时间
每项指标都进行评分,其中相关性和重要性范围为 0 到 10,情感极性范围为 -1 到 1。因此,第 i 篇新闻在第 t 天的表示为五维向量 Ci ∈ R1×5。经过嵌入层后,得到最终的去噪新闻嵌入 Ci ∈ R1×dm。
4.3 滞后依赖时间因果发现 (Lag-dependent TCD)
本节提出滞后依赖时间因果发现模块。该模块采用贝叶斯观点来建模时间因果图的分布,即学习后验分布 p(G |X<T)。由于 G 的组合空间巨大,因此难以计算精确的后验图。本文采用变分推断来获得近似器 qφ(G),其中 φ 表示变分推断的参数集。
图先验: 先验 p(G) 包含图稀疏先验和领域特定知识先验。
变分近似图后验: 根据公式 (3),将近似器 qφ(G) 分解为相同的形式。对于 G 中的每个潜在因果链接 Gl,ji,将后验 qφ(Gl,ji |Gl-1,ji) 服从伯努利分布 B。这样,qφ(G) 的概率分布可以表示为伯努利分布的乘积。
训练阶段采用 Gumbel-softmax 重参数化方法对 φ 进行随机估计。此外,设计了另一个参数化的可学习因果权重图 G = {Gl }l=1L ∈ RL×D×D 来衡量因果程度。因果存在图和因果权重图分开设计,可以更全面地建模因果关系。
4.4 功能因果模型 (FCM)
本节设计 FCM 来建模 p(yT |X<T, G),其中 θ 表示 FCM 的参数集。本文采用加性噪声 FCM 来生成 yT = {yi }i=1D:
yi = Fi(Pa(yt ), zi ) = fi(Pa(yt )) + zi ,
其中 zi 表示相互独立且序列独立的动态噪声,fi : RD×L → R1 是满足时间因果图 G 指定的关系的通用可微分非线性函数。
设计了一种新的 FCM,根据学习到的因果图 G 和因果权重图 G 对市场信息(包括新闻和价格)进行聚合:
fi(Pa(yt )) = Sigmoid(∑l=1L∑j=1D Gl,ji ,ji e(Pa(yt )-1), v(Ct )),
其中 Si, l 和 v 都是神经网络。(., .) 表示连接操作。应用逻辑 Sigmoid 函数输出 yi 的运动概率,并将其直接作为 CausalStock 的输出。
对于外生噪声 zi 的建模,采用高斯分布,即 zi ∼ N(0, σi2), 其中每变量的方差 σi2, i ∈ [1, D] 是可训练的参数,用于表示不确定性部分。
4.5 训练目标
模型通过最大化条件对数似然 log p(yT |X<T) 进行训练。模型目标的变分证据下界 (ELBO) 推导如下:
log p(yT |X<T) ≥ Eqφ(G)[log p(yT |X<T, G) + log p(G)] + H(qφ(G)).
其中,p(G) 表示因果图的先验,H(qφ(G)) 是后验近似器的熵。
此外,采用二元交叉熵损失作为另一个目标 BCE(gT, yT) 来提高学习性能,其中 gT 是目标交易日 T 的真实运动。
5. 实验
5.1 实验设置
除了新闻驱动多股股价预测任务外,CausalStock 模型还可以处理无新闻的多股股价预测任务。
数据集: 使用来自不同国家股票市场的六个数据集进行实验。前三个数据集用于基本分析模型,包含历史价格和文本数据。后三个数据集用于无新闻的多股股价预测任务。
评估指标: 使用准确率 (ACC) 和马修斯相关系数 (MCC) 评估模型预测性能。
基线模型: 对于新闻驱动多股股价预测任务,基线模型包括 HAN、StockNet、PEN 和 CMIN。对于无新闻的多股股价预测任务,基线模型包括 LSTM、ALSTM、Adv-ALSTM 和 DTML。
参数设置: 模型使用 Pytorch 实现,并在 4 个 NVIDIA Tesla V100 上进行优化。
5.2 预测精度结果
实验结果表明,CausalStock 在 ACC 和 MCC 方面均优于所有基线模型,在新闻驱动多股股价预测任务中表现出稳健的性能。
5.3 消融研究
消融研究结果表明:
-
新闻数据对股价预测非常有帮助。
-
滞后依赖机制比滞后独立机制具有更好的性能。
-
变量依赖因果机制具有提高模型性能的潜力,但计算复杂度较高。
-
去噪新闻编码器比传统新闻编码器具有更好的性能。
5.4 可解释性结果
DNE 模块的可解释性: DNE 模块能够有效地识别和量化新闻对相应股票价格的影响。
Lag-dependent TCD 模块的可解释性: 通过分析因果强度图,可以发现:
-
低市值公司的股票因果关系较弱。
-
大市值公司对其他公司具有更大的影响。
5.5 投资模拟
投资模拟结果表明,CausalStock 能够在真实交易场景中实现更高的利润,并有效地平衡风险和收益。
6. 结论
本文提出了一种新的新闻驱动多股股价预测框架 CausalStock。该模型利用滞后依赖时间因果发现机制和功能因果模型,能够有效地挖掘股票间的因果关系,并预测未来股价走势。实验结果表明,CausalStock 在多个真实数据集上均表现出优异的性能,并提供了清晰的可解释性。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
优快云粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
优快云粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈