利用强化学习进行股票操作实战(二)

本文介绍了使用DQN进行股票操作的实战,包括DQN类的设计、环境类的实现以及训练过程。通过000065股票的历史数据进行训练,结果显示模型在训练集上表现良好,但回测效果一般。作者指出强化学习在股票交易中的挑战,并提出了未来策略的构想,结合其他模型和人为判断来优化策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对于DQN的理论知识,这里不再赘述,不懂的同学可以看之前的强化学习理论篇或自行上网搜索相关资料。

废话不多说直接上代码。

DQN类

首先定义了一个DQN类(这个定义参考了莫烦的代码 [1],几乎与其一致,做了简单修改)。下面简单的说明一下,代码中的核心部分。详细介绍可以看莫烦教学视频或者结合代码自己理解。

class 中包含了5个主要模块,分别是__init__ (初始化),_build_net(网络构建),store_transition(储存过去操作),choose_action(根据状态选择动作),learn(网络学习)。
在这里插入图片描述
_build_net:构建了两个结构相同网络eval_net和target_net。eval_net更新频率较高,target_net更新频率较低。(设置两个网络更新频率不同是DQN模型的其中一个核心)
在这里插入图片描述
store_transition:将过去操作储存起来,s是当前状态,a是当前动作,r是reward,s_是下一时刻状态。
在这里插入图片描述
Chose_action:根据当前状态选择动作(采用了贪婪规则)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值