深度强化学习:从价值到策略的探索
在当今的科技领域,深度强化学习(DRL)正发挥着越来越重要的作用。它结合了深度学习的强大表示能力和强化学习的决策能力,在许多领域都取得了显著的成果。本文将深入探讨深度强化学习中的两种重要方法:基于价值的深度强化学习和基于策略的深度强化学习,并通过具体的例子展示它们的应用。
基于价值的深度强化学习:DQN算法
基于价值的深度强化学习通过估计状态 - 动作值来选择动作,其中最具代表性的算法是深度Q网络(DQN)。DQN使用经验回放和目标网络来稳定深度神经网络的训练过程。
DQN算法步骤 :
1. 初始化回放内存D,容量为N。
2. 随机初始化动作价值函数Q的权重θ。
3. 初始化目标动作价值函数ˆQ的权重θ− = θ。
4. 对于每个回合(episode):
- 初始化序列s1 = {x1},并对其进行预处理得到φ1 = φ(s1)。
- 对于每个时间步t:
- 使用ϵ - 贪婪策略选择随机动作at。
- 执行动作at,观察奖励rt和新的数据输入xt + 1。
- 设置st + 1 = st, at, xt + 1,并对其进行预处理得到φt + 1 = φ(st + 1)。
- 将转移(φt, at, rt, φt + 1)存储在D中。
- 从D中随机采样小批量的转移(φj, aj, rj, φj + 1)。
- 设置yj的值:
- 如果回合在步骤j + 1终止,yj = rj。
- 否则,yj = rj + γmaxa′ ˆQ(φj + 1, a′; θ−)。
- 对(y
深度强化学习核心算法探析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



