强化学习在股票交易中的应用与实践
1. 强化学习基础
强化学习中,计算特定状态 - 动作对 (s, a) 的效用有个优雅的方法,即递归考虑未来动作的效用。当前动作的效用不仅受即时奖励影响,还受后续最佳动作的影响,公式如下:
[Q(s, a) = r(s, a) + \gamma \max_{a’} Q(s’, a’)]
其中,(s’) 是下一个状态,(a’) 表示下一个动作,(r(s, a)) 是在状态 (s) 采取动作 (a) 的奖励。(\gamma) 是一个超参数,称为折扣因子。若 (\gamma = 0),智能体选择使即时奖励最大化的动作;(\gamma) 值越高,智能体越重视长期后果。
另外,还有学习率 (\alpha) 这个超参数。在某些强化学习应用中,新信息可能比历史记录更重要,反之亦然。若期望机器人快速学习解决任务但不追求最优解,可设置较快的学习率;若允许机器人有更多时间探索和利用,则可调低学习率。更新后的效用函数如下:
[Q(s, a) \leftarrow Q(s, a) + \alpha [r(s, a) + \gamma \max_{a’} Q(s’, a’) - Q(s, a)]]
当知道 Q 函数 (Q(s, a)) 时,强化学习问题就能得到解决。神经网络可以在有足够训练数据的情况下近似函数,而 TensorFlow 是处理神经网络的理想工具,它包含许多简化神经网络实现的重要算法。
2. 强化学习在股票交易中的应用
股票交易非常适合应用强化学习,因为买卖股票会改变交易者的状态(手头现金),且每个动作都会产生奖励(或损失)。
状态是一个包含当前预算、当前股票数量和
超级会员免费看
订阅专栏 解锁全文
760

被折叠的 条评论
为什么被折叠?



