基于xLSTM的深度强化学习用于自动股票交易

最新推荐文章于 2025-06-01 22:45:47 发布

程序猿李巡天

最新推荐文章于 2025-06-01 22:45:47 发布

阅读量442

点赞数 3

文章标签： pdf 人工智能 cnn rnn transformer

本文链接：https://blog.youkuaiyun.com/m0_59235945/article/details/146521293

版权

“A Deep Reinforcement Learning Approach to Automated Stock Trading, using xLSTM Networks”

股民希望通过预测市场趋势来最大化回报，但市场环境复杂且波动，人工洞察有限。传统LSTM网络在处理序列数据时存在梯度消失和长依赖捕捉困难的问题，影响其在动态和风险环境（如股市交易）中的表现。

本研究提出结合扩展长短期记忆网络（xLSTM）与深度强化学习（DRL）的方法用于自动化股票交易。xLSTM网络被应用于DRL的演员和评论家组件，有效处理时间序列数据和动态市场环境。使用近端策略优化（PPO）来优化交易策略，平衡探索与利用。

实验结果显示，基于xLSTM的模型在累计回报、每笔交易平均盈利、最大收益率、最大回撤和夏普比率等关键交易评估指标上优于基于LSTM的方法。

摘要

传统LSTM网络在处理序列数据时存在梯度消失和长依赖捕捉困难的问题，影响其在动态和风险环境（如股市交易）中的表现。本研究提出结合扩展长短期记忆网络（xLSTM）与深度强化学习（DRL）的方法用于自动化股票交易。xLSTM网络被应用于DRL的演员和评论家组件，有效处理时间序列数据和动态市场环境。使用近端策略优化（PPO）来优化交易策略，平衡探索与利用。

实验结果显示，基于xLSTM的模型在累计回报、每笔交易平均盈利、最大收益率、最大回撤和夏普比率等关键交易评估指标上优于基于LSTM的方法。研究表明xLSTM在增强基于DRL的股票交易系统方面具有潜力。

简介

股民希望通过预测市场趋势来最大化回报，但市场环境复杂且波动，人工洞察有限。自动化交易系统的研究集中在深度强化学习（DRL）上，相较于监督学习方法，DRL能动态调整市场状态下的行动。深度Q学习（DQL）被认为不如更先进的算法如近端策略优化（PPO）稳定和高效。

研究者们提出了基于DRL和模仿学习的代理驱动模型，处理金融数据的噪声。一项研究结合了级联LSTM网络与DRL，使用PPO和LSTM网络进行策略学习。近期工作结合了DQN和DDPG与CNN和GRU架构，并引入注意力机制以克服RNN的局限。

本文新引入的扩展LSTM（xLSTM）架构在自动化股票交易中的应用尚待探索。xLSTM克服了LSTM的梯度消失问题，表现优于某些基准的Transformer架构。本研究利用xLSTM与DRL结合，预测股市价格，xLSTM在RL模型中用于历史观察的提取。

LSTM在自然语言处理任务中取得突破，但RNN在长序列上面临梯度消失或爆炸问题。Transformer架构通过并行性和学习短期与长期依赖解决了RNN的关键挑战，但参数使用量高。xLSTM在LSTM基础上进行改进，主要有两个修改：使用指数门控和新内存结构。xLSTM由sLSTM和mLSTM块组成，sLSTM提供标量内存和更新，mLSTM则实现完全并行化。

方法

模型架构

本文提出了基于Proximal Policy Optimization (PPO)的强化学习方法。使用Stable Baselines3库中的Recurrent PPO，支持递归策略。实现了新的RecurrentActorCriticPolicy，命名为xLSTMPolicy。xLSTMPolicy与Recurrent PPO模块连接，形成DRL模型。xLSTMPolicy利用官方xLSTM库。

循环近端策略优化（PPO）

Proximal Policy Optimization (PPO) 是一种平衡探索与利用的强化学习算法，适用于优化策略。在 stable-baseline3 库中，PPO 可与递归神经网络（LSTM）结合，形成强大的 Recurrent PPO。

本研究使用 xLSTM 网络替代 LSTM，测试其在时间序列数据和股票交易任务中的有效性。算法1 随机初始化两个 xLSTM 神经网络：一个用于决策（actor），一个用于状态价值估计（critic）。通过与股票交易环境的反复交互训练网络，代理观察金融状态、决定行动、获得奖励，并逐步改进决策策略。xLSTM 架构使代理能够记忆过去状态，有助于理解复杂的金融时间序列并做出顺序投资决策。

xLSTM网络

使用两个xLSTM网络：一个作为策略网络，另一个作为价值网络。两个网络共享相同的配置和架构，激活函数为Gaussian Error Linear Unit (GeLU)。嵌入向量大小为128。策略和价值网络协同工作，选择每个时间步的最优行动。

股票交易环境

股票交易环境根据策略选择行动，并返回下一个观察值和奖励值，初始余额为100万美元。奖励函数检查市场波动指数，避免高风险情况，选择不稳定市场的行动会受到-1的惩罚。在市场稳定时，奖励通过计算总投资组合价值变化并扣除交易成本来获得，并进行归一化处理。

实验

数据集

使用Yahoo市场数据分析五大科技公司：NVIDIA、Apple、Microsoft、Google、Amazon。训练数据时间范围：2009年1月1日至2022年1月1日；测试数据时间范围：2022年1月2日至2022年1月1日。特征集包括每日的低、高、开、收、调整后收盘价和交易量。定义了涌动指数以避免在极端市场情况下交易。

评估指标

累计收益（CR）

MER（最大收益率）

最大利润下降百分比（MPB）

平均每笔交易盈利（APPT）

夏普比率（SR）

结果

使用Recurrent PPO与MLPPolicy训练基线模型，比较xLSTM与经典LSTM的性能，测试时间窗口为30、15和5。

通过不同批量大小（以3的时间窗口）寻找最佳超参数，发现批量大小32的回报较高，波动源于小时间窗口。使用更大时间窗口训练模型，30的时间窗口在测试数据预测中表现最佳，回报平稳且几乎无负回报，表明策略盈利且风险低。

xLSTM在政策和价值网络中的应用相比经典LSTM在所有评估指标上均表现更优，展示了其在自动化交易策略中的潜力。

总结

本研究探讨了xLSTM网络与深度强化学习（DRL）结合在自动化股票交易中的潜力。结果表明，xLSTM优于传统LSTM，解决了许多LSTM的局限性。训练xLSTM网络需要更多计算资源，难以在大规模问题上测试。研究开始时使用五个股票市场价格和轻量特征，结合流行的RL算法（PPO）评估xLSTM的性能。

未来工作方向包括更强大的特征工程，以提升模型性能和交易策略设计。考虑在xLSTM网络中使用集成建模，应用于actor或critic网络。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述