股票操作之强化学习基础(三)(Deep Q Network、Actor-critic、Policy gradients)

本文介绍了强化学习在股票操作中的基础,重点关注了Deep Q Network(DQN)和Actor-critic算法。DQN通过经验回放缓冲区和双网络解决Q-learning的挑战,而Actor-critic结合了值基和策略基方法,通过Actor和Critic两个模块进行优化。尽管Actor-critic收敛较慢,但它启发了更先进的Deep Deterministic Policy Gradient算法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

股票操作之强化学习基础(三)(Deep Q Network、Actor-critic、Policy gradients)

接上一篇文章继续介绍一些强化学习基础。

1 DQN(Deep Q Network)

DQN是一种融合了神经网络和Q-learning的方法。那么DQN提出来的动机是什么呢?Q-learning算法的核心是学习Q-table,然而真实世界的状态非常多,这些状态多到计算机已经无法储存了。比如在围棋中,不同的牌面布局就有很多种。因此DQN被提出来,其核心思想就是利用神经网络来近似这个Q-table。

举个例子:假设一个学习好的Q-table如下:
在这里插入图片描述
假设我们用一个神经网络来近似这个Q-table,输入状态(state)和动作(action),就能利用神经网络输出其对应Q-table中的Q值。或者我们输入一个状态,神经网络可以输出所有动作对应的Q值。
在这里插入图片描述
但是单纯的用神经网络代替Q-table又是不可行的,其原因主要如下 [2]:

1)DL(Deep learning,深度学习)是监督学习需要学习训练集,强化学习不需要训练集只通过环境进行返回奖励值reward,同时也存在着噪声和延迟的问题,所以存在很多状态state的reward值都是0也就是样本稀疏。

2)DL每个样本之间互相独立,而RL(ReinforcementLearning,强化学习)当前状态的状态值是依赖后面的状态返回值的。

3)当我们使用非线性网络来表示值函数的时候可能出现不稳定的问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值